策略熵指标: 对于随机性策略(PPO等)可以用策略熵来表示策略是否“确定”。在训练过程中随着策略提升,策略变得越来越确定,此时熵应该是随着逐渐降低的,熵曲线趋于平缓。
loss指标: 这是DL中的直观指标,虽然不能直接用在DRL来说明策略好坏,但loss是在一直下降还是已经趋于平缓了,可以一定程度上说明网络模型的学习程度,看模型是“学会了”还是“学废了”,趋于平缓可能就是已经训练差不多了,当然“训练差不多”不代表“策略最优”,有些可能loss还在掉,但是策略表现改进不大一直很差(即时已经训练很久)。
reward指标: 这是一个比较直观的指标,但是需要定义清楚是否能直接反应我们策略好坏。reward大多是对于状态之间转移的即时奖励,和整个决策规划的好坏不能直接等价。以下以“DRL用于agent决策导航”为例,我们目标是在最短时间到达目标点同时避障。