8.4.2 REINFORCE算法