任务
在carla环境下做自动驾驶导航,在训练过程中一直转弯,不走直线,讨论过程中发现训练过程中车一直处于转圈碰撞状态,提前结束任务,没有任何探索迹象,或者完全不动。
讨论了几种可能性:
- 给定油门范围过大,环境没有时间反应就撞到了障碍物(在测试中调整了范围,经过一定时间训练后发现车辆不动了)
- 调整奖励,提高速度奖励,在速度奖励中,车进行了一定的运动,处于转圈状态,其平均奖励低于0,总奖励低于0,降低速度奖励后,车不动,认为有可能奖励设置问题。
请问有没有很好的奖励设计技巧,设计方案方法共参考。
程序截图,为奖励设计,包括车与终点之间的距离,碰撞传感器的次数,换道次数,以及速度