大家好,我现在在做介入手术深度强化学习方向,因为血管和导丝难以仿真,所以只能用实物环境训练,对硬件提出较高要求。我基本上用到了函数近似(状态是无限的,为血管导丝图片),boostrapping.(使用actor-critic框架,使用一步TD和多步TD,主要参考DAPG算法),本来打算用off-policy的,但是又怕不收敛。为了加快训练和收敛,我现在开题是打算加入医生的演示数据也就是介入手术数据,但是量化和收集带来许多困难。我在想为了提高样本利用率(因为强化学习的训练实在是。。。,所以对自己设计的送丝装置有点担忧。),可不可以使用规划算法如A*来辅助探索,这样希望样本不至于太差?希望大家不吝赐教,多多提提宝贵意见!!!!!!