PPO算法：eval阶段运动轨迹不变

实验室刚接触RL，在尝试复现ManiSkill2-Learn的工作，RL算法使用的是源码中的PPO和DAPG，仿真环境是自定义的Robosuite PickPlace

PickPlace分开训练，Pick任务可以很快训出来，Place任务训练成功率一直为0，使用demo训练也没有改善。另外发现evaluation阶段，测试100次，每次环境都会reset，但是agent生成的轨迹是不变的，即使目标位置已经发生变化？

请问有人遇到过类似情况吗？或者有没有什么好的debug思路，感谢

jimuplacedemomask-50k.mp4

1MB

Document