实验室刚接触RL,在尝试复现ManiSkill2-Learn的工作,RL算法使用的是源码中的PPO和DAPG,仿真环境是自定义的Robosuite PickPlace
PickPlace分开训练,Pick任务可以很快训出来,Place任务训练成功率一直为0,使用demo训练也没有改善。另外发现evaluation阶段,测试100次,每次环境都会reset,但是agent生成的轨迹是不变的,即使目标位置已经发生变化?
请问有人遇到过类似情况吗?或者有没有什么好的debug思路,感谢