REM的困惑 - 深度强化学习实验室

REM的困惑

qaz123zz00

请问在这个里面是不是训练多个Q函数，然后去平均的意思？

这样能防止高估，这与double Q-learning，或者TD3中学习估计两个Q值选择较低的是不是差不多一个思路？

还是说训练一个网络输出多个Q值进行平均？

qaz123zz00

又重新看了一下论文，表达有问题，分为multi-networks，与multi-heads，这两种方法在效果上和原理上有什么区别吗？？

Document