强化学习的探索可以使用规划算法进行辅助吗？

杨德爱

大家好，我现在在做介入手术深度强化学习方向，因为血管和导丝难以仿真，所以只能用实物环境训练，对硬件提出较高要求。我基本上用到了函数近似(状态是无限的，为血管导丝图片)，boostrapping.(使用actor-critic框架，使用一步TD和多步TD,主要参考DAPG算法)，本来打算用off-policy的，但是又怕不收敛。为了加快训练和收敛，我现在开题是打算加入医生的演示数据也就是介入手术数据，但是量化和收集带来许多困难。我在想为了提高样本利用率(因为强化学习的训练实在是。。。，所以对自己设计的送丝装置有点担忧。)，可不可以使用规划算法如A*来辅助探索，这样希望样本不至于太差？希望大家不吝赐教，多多提提宝贵意见！！！！！！

杨德爱

这是导丝血管图片，用于状态反馈的，上面是标签

kaixindelele

mujoco是可以仿真导线的啊，不试试么？规划算法应该也是可以的，但是我没做过

Document