各位大佬好,我目前正在复现多智能体路径规划的算法,在初期探索阶段,正奖励非常少,由于奖励设定是所有智能体到达目标后才能获取奖励,只有某个智能体到达目标是没有奖励的,但也没有惩罚,其他情况发生碰撞以及移动一步都是有一定的惩罚,由于奖励稀疏问题的存在无法探索到奖励的数据,以及在网络初期的训练阶段是否随机动作的设定应该较大,能够提升探索到目标的概率,采用的sac算法,基于课程学习进行训练,但目前不能够复现,网络训练好像没有什么效果,请问应该如何解决啊,谢谢大家!