如题,我在使用二轮差动小车的模型,用DDPG算法进行训练,没有用到深度传感器,就是简单的数值仿真。
我的奖励函数设置如下:
R1: 定义车的位置与终点的位置之间的距离为L,如果下一时刻的L小于当前时刻的L,那么奖励为+5,反之-5
R2: 定义车头方向与 “车当前位置与终点的连线” 所夹的锐角的绝对值为theta(因为假设车可以倒着走,所以倒着走到终点也是可行的,因此只用正的锐角表示),如果下一时刻的theta小于当前时刻的theta(表示车的朝向更加“正确”),那么奖励为+2,反之为-2,因为假设对距离的约束要比对角度更严格,所以用5和2作为区分,因为有的时候角度奖励为-2,但是位置奖励为+5,这种情况并不是最好,但是也能接受。
R3: 如果在规定时间内,小车到达终点(与终点的距离小于某个值),那么额外奖励200,否则为0.
问题是:小车现在往往是运动到终点附近时,然后开始终点附近的某一个位置原地打转。似乎是终点对车有一个排斥力,让车无论如何进不去的感觉。
请问各位,这可能是什么原因呢