在DQN 中,为了将训练回快,可以人为将奖励设计得更突兀,故意引导agent到人想要其到达的位置,达到目标后,将奖励值恢复到正常水平,会发现agent好像又回到了初始化的阶段;
在DQN、DDPG中,有train和test之分,在train阶段,为了让agent探索得更好一些,会有e-greedy(离散动作)或者加入动作正态噪声(连续动作)的方法,当test阶段时,这些trick都去掉了,这是否会影响到agent对动作的选取
一句话就是,在训练时奖励、e-greedy、正态噪声是否也是环境的一部分?首先,奖励肯定是环境的一部分,后两者呢?如果后两者是环境的一部分,test时不考虑这些因素是否对agent达到目标有影响?