各位大佬们好,就是我在用深度强化学习做一个通信系统的发射功率最小化的问题,由于是最小化,我就是把奖励设置成功率的负数,然后在后面训练中奖励就一直在下降,先用的是DDPG,后面换成了TD3,但是效果差别不大,我现在初步猜想是奖励或者是环境的问题,因为对网络或者是agent还是回放池的调参都影响不大,由于这方面网上的资料比较少,所以来这里咨询一下各位大佬,希望能得到一些宝贵的意见,谢谢