请问在这个里面是不是训练多个Q函数,然后去平均的意思?
这样能防止高估,这与double Q-learning,或者TD3中学习估计两个Q值选择较低的是不是差不多一个思路?
还是说训练一个网络输出多个Q值进行平均?
又重新看了一下论文,表达有问题,分为multi-networks,与multi-heads,这两种方法在效果上和原理上有什么区别吗??