深度强化学习求解最小化问题

lll

各位大佬们好，就是我在用深度强化学习做一个通信系统的发射功率最小化的问题，由于是最小化，我就是把奖励设置成功率的负数，然后在后面训练中奖励就一直在下降，先用的是DDPG，后面换成了TD3，但是效果差别不大，我现在初步猜想是奖励或者是环境的问题，因为对网络或者是agent还是回放池的调参都影响不大，由于这方面网上的资料比较少，所以来这里咨询一下各位大佬，希望能得到一些宝贵的意见，谢谢

Document