在多智能体强化学习中,如果某一个智能体提前死亡,可以通过Death Masking将其屏蔽。但是具体在程序中应该怎么实现呢?通过奖励函数还是把该智能体的状态量设为零?
我一般都是在动作维度留出来一维表示空闲,agent在完成自己任务后就无论什么状态都映射到空闲动作上,但是这个样本不能存到memory里