1.4 学习用于自动规划路径的控制律
在本章开始时我们曾说过,有无数种方式可以到达一个目标。对于遵循式(1.4)的系统,从空间中的一个点到目标只有一条路径。这意味着从无穷多个解变成了唯一解。这种过渡必须谨慎完成,并且必须确保在控制律中嵌入“正确”的路径。正确的路径可能取决于许多外部因素。例如,如果机器人像打网球一样将球扔到地板上,它将希望从上面接住球。机械臂将处于合适的配置中,以便向下移动。相反,如果希望在球落下之前接住球,它可能会选择从下往上的路径。这两组动力学遵循不同的函数f(x)。为了确定使用哪个函数f,可以从良好轨迹的例子中学习函数f。
在第2章中,我们提出了三种获得良好轨迹样本的方法。一种方法是由示范最佳路径的人类专家进行培训。另一种方法是根据本章中描述的方法,在最优控制下离线生成这些轨迹。通过这种方式,我们可以嵌入开发人员已知的关于机器人运动学和动力学限制的所有要求,以及与手头任务相关的其他要求。由于通过最优控制生成这些解决方案需要时间,因此可以离线完成。一旦控制律嵌入单个函数f(x)中,就不需要在运行时进行任何优化。假设最优路径是一劳永逸的,并且人类专家可以以某种方式存储这些知识。但是,设计者可能不知道最优路径是哪一条,或者最优路径可能会随着时间的推移而变化。获取样本数据的第三种方法是让机器人通过反复试验自行学习,这被称为强化学习。
在第3章中,我们将了解如何学习式(1.4)中给出的控制律。在这里,我们说明了为什么需要专门的方法,而不能仅仅应用自己喜欢的机器学习技术。回想一下,设定式(1.4)时,我们要求函数在目标处渐近稳定。假设你获得了一组M个的位置和速度训练样本对。在机器学习中,你可以通过一组参数Θ来参数化函数。函数变为f(x;Θ),可以使用多种回归方法学习其参数θ,例如局部加权投影回归[127]、高斯过程回归[133]、高斯混合回归[26]或神经网络[146]。然而,这些方法不能保证已学习的动态系统不会偏离吸引子,因为稳定性标准不是优化的一部分(有关这些方面的详细讨论,请参阅第3章)。在图1.8中,我们说明了使用支持向量回归和神经网络时f(x)估计的向量场和解。可以看到,虽然路径准确遵循数据,但向量场在吸引子处不会消失。粉色的预测轨迹会越过吸引子并继续其路径。
图1.8 学习支持向量回归(图a)或神经网络(图b)等机器学习技术的估计控制律,可以确保与数据紧密拟合,但不能保证它在吸引子处收敛。训练数据以红色线表示。学习过的轨迹以灰线表示。粉色轨迹说明了从一个训练点开始时的预测模型。在这两种情况下,轨迹一旦到达吸引子位置就会漂移
这些算法都不是为了在某一点上增强稳定性而构造的。它们通常是通过均方损失来使目标函数要求的数据尽可能地拟合。为了增强稳定性,吸引子处的速度应为零。均方损失函数很少强制要求速度在特定点精确为零。在第3章中,我们展示了如何使用显式约束来修改传统机器学习技术的原始优化框架,以确保学习的动力学是稳定的。