多智能体路径规划奖励稀疏问题

LeeKooktao

各位大佬好，我目前正在复现多智能体路径规划的算法，在初期探索阶段，正奖励非常少，由于奖励设定是所有智能体到达目标后才能获取奖励，只有某个智能体到达目标是没有奖励的，但也没有惩罚，其他情况发生碰撞以及移动一步都是有一定的惩罚，由于奖励稀疏问题的存在无法探索到奖励的数据，以及在网络初期的训练阶段是否随机动作的设定应该较大，能够提升探索到目标的概率，采用的sac算法，基于课程学习进行训练，但目前不能够复现，网络训练好像没有什么效果，请问应该如何解决啊，谢谢大家！

Document