强化学习做5自由度的连续动作控制可行吗

叶天天

之前看论文，别人写的无人机还有水下机器人5自由度或者6自由度控制，输入传感器信息，直接输出推进器控制量。课时我复现的时候发现，根本训不出来合适的推进器控制量。前期一直用的DDPG，因为有个论文上就用的这个，实在不行换的PPO和A3C，目前还没啥好结果。但是用双足机器人测试算法，算法是可行的。
请问强化学习做这个真的可以吗

PonyShan

叶天天
别说5个自由度，就是50个都可以，这是问题复杂度，不是范式问题

具体可以参考这个: PPO动作网络输出问题 http://deeprlhub.com/d/498-ppo/4

Mlsss

叶天天博主，请问你做了强化学习控制六自由度无人机吗？进展如何呀，我最近也在做这个，可以交流探讨一下吗

实验室官方助手

叶天天没问题的可以做

FeiY

叶天天几十个都可以的，比如王者荣耀上百维度可以用PPO处理

forrestneo

一开始就不该DDPG，用DDPG做很容易不收敛

Document