• 问题求助 算法问题
  • 为什么连续动作环境下使用DDPG的表现还没有直接动作离散化后Q-learning表现好?

ddpg本身的性能就不怎么好吧,试一下ppo或sac呢

5 天 后

图中显示DDPG的收敛性能已经吊打Ql了,感觉可能是参数设置没有让DDPG发挥出全部实力

14 天 后

离散化粒度只有6,Q-learning的探索效率远高于DDPG。
这说明在你的任务中,探索效率提升带来的收益超过了控制精度下降带来的损失。
如果离散化再精细一些,可能还会继续提升性能,直到上述收益与损失的关系发生逆转。
本来连续动作空间在探索效率上就是吃亏的,DDPG叠加噪声的方式有很大改进空间,比如parameter noise等等。

2 个月 后

我想问,怎么把三种结果显示在一张图上的?是三个程序一起跑,结果绘图在一起吗

    叶天天 首先,依次运行算法,并将运行结果保存到文件中;最后,通过读取文件数据,绘制图表。

    说点什么吧...
    Document