现在用于学习的DRL算法的动作空间都是一维的,即只输出一个数。如果我的动作空间是高维的,应该怎么去修改代码呢,以PPO算法或SAC算法为例子,有没有大佬教一下
Mr-HeMu 参考一下这篇文章: PPO强化学习如何实现多维度的动作呢? https://www.zhihu.com/question/417161289
实验室官方助手 好嘞,谢谢