A3C存在的问题: A3C未用到GPU,而GPU可以加快网络训练速度; A3C训练时需要给每个并行的agent复制一份子网络来收集样本计算累计梯度,当并行的agent数量很多时耗内存。
那么GPU是在加速CNN 处理还是加速智能体与环境的interation?
RLer GPU主要就是加速神经网络计算的速度,如果网络结构很小,和CPU的差距也不会很大。强化学习还是比较容易吃CPU,因为和环境的interation的计算开销一般都无法使用GPU,而这一部分又是巨大的。
xluckyhappy 一般是通过python并行编程多线程调用CPU?
RLer 大部分是这样的