DRL目标是找到一个最优策略,而要找到最优必须遍历环境中所有状态所有动作情况,但是实际不可能(一般NP问题才需要drl)。虽然不能遍历所有的环境中状态-动作空间,但是训练中总是期望能够看到越多的状态-动作空间是越好的,这就需要探索。对状态动作空间探索越充分自然能够见识更多,获得更优的策略,但是条件不允许(时间限制和空间限制)。
而且空间中绝大部分都是没有多少价值的experience,如何能够有效的利用当前次优策略进行更加高效的探索就是drl需要解决的最大挑战,毕竟时间和资源都是有限的。
关键在于可利用的资源一定的条件下,平衡两者。探索占用更多的资源,那么利用当前次优策略获得高收益比重就要下降,很多探索都不会有多少收益。缺少探索,智能体获得的次优策略也就减少了逼近最优策略的几率。
因此智能体一般都采用前期增加探索,后期注重利用。跟人一样,年轻的时候可以勇敢的尝试,后期就要专注于某个方向坚持走下去。