我正在做一个IMPALA的应用项目,发现IMPALA有一个缺点是agent不会exploration,请问哪位大佬知道IMPALA怎么加入探索机制。
我已经找到了答案。答案源于facebook research/torchbeast的作者。 Agent输出的action具有不确定性。 策略网络输出的是策略,其本质是一个关于action的概率密度函数,每次基于它采样一个action,当概率密度函数越平均时,Agent的exploration越强,用entropy可以衡量概率密度函数的平均程度,entropy越小,action的不确定性越
小,所以训练时可通过设置entropy cost超参数来调整Agent的探
索性。