6.3 连续的强化学习