多智能体强化学习，智能体提前死亡。

在多智能体强化学习中，如果某一个智能体提前死亡，可以通过Death Masking将其屏蔽。但是具体在程序中应该怎么实现呢？通过奖励函数还是把该智能体的状态量设为零？

我一般都是在动作维度留出来一维表示空闲，agent在完成自己任务后就无论什么状态都映射到空闲动作上，但是这个样本不能存到memory里

Document