各位大佬,最近有个问题有点困扰,某审稿人认为最大熵逆强化学习是监督学习,因为Ground truth reward相当于监督学习的反馈,是label。请问最大熵逆强化学习是监督学习还是半监督学习呢?我查了很多资料也没有找到明确的答案,只找到行为克隆是一种类监督学习或监督学习,但关于逆强化学习并没有明确的描述。我个人认为,最大熵逆强化学习算是一种类半监督学习,1.)因为Ground truth reward并没有在整个模型中发挥直接的作用。退一步讲,即使模型和程序中删掉Ground truth reward,整个模型的思想和理论,依然保持完整性,程序依然可以完整运行,学习到奖赏函数。2)在利用专家演示轨迹学习完一次后,才获得奖赏函数,并且利用专家特征期望数和学习者特征期望数之间的差值进行反馈传递,符合强化学习是半监督学习的执行多步后反馈的特点。3)且模型输入专家演示为状态数据,并未将专家奖赏输入作为label,故不符合监督学习的输入数据包括特征和label的特性。这是我个人的想法和观点,所以想跟大家讨论一下逆强化学习究竟是监督学习还是半监督学习?还请大家不吝赐教,谢谢!