我在写ddpg算法时采用了一个模型进行训练,因此优化时就用了一个优化器进行优化,如何运用单模型, 这种方式的模型构建是否存在收敛性难的问题? 其中单模型为现在大多数都是AC框架,A代表policy,C代表Q,ddpg是动作与状态的确定性测量也就是可以表示为a=A(s),同时状态为q=Q(s,a),所以q=Q(s,A(s)),这样就可以由一个网络表示Q和a,这样的方法是否有什么弊端?
qaz123zz00
1.单模型是指?单网络?还是? 另外个人觉得,DDPG算法使用的target nerwork ,相对于a3c,ppo这类算法本身就存在收敛慢和不稳定的情况
NanNan 我看到现在网络一般是两个网络,一个是A网络,一个是C网络,在ddpg中我把两个网络整合了,只有一个网络了,两个输出,这种情况下会不会出现其他问题
qaz123zz00 为什么不直接用spinning up的DDPG呢? 另外C网络,其实有两个,一个是eval,一个target。
qaz123zz00 这不就是DQN算法2013版和2016版的区别吗?后者效果更佳,相当于单独使用了一个网络去逼近值函数了,何必回到当初呢?
DeepRLearner 为啥相当于ddpg2016版呢?ddpg采用的连续的动作信号,DQN是离散啊
你的图,以及图中的变量没有标注清楚,比如那个1 和IMG代表什么?大伙儿看起来容易不在一个频道上