算法中哪里算是环境因素

在DQN 中，为了将训练回快，可以人为将奖励设计得更突兀，故意引导agent到人想要其到达的位置，达到目标后，将奖励值恢复到正常水平，会发现agent好像又回到了初始化的阶段；

在DQN、DDPG中，有train和test之分，在train阶段，为了让agent探索得更好一些，会有e-greedy（离散动作）或者加入动作正态噪声（连续动作）的方法，当test阶段时，这些trick都去掉了，这是否会影响到agent对动作的选取

一句话就是，在训练时奖励、e-greedy、正态噪声是否也是环境的一部分？首先，奖励肯定是环境的一部分，后两者呢？如果后两者是环境的一部分，test时不考虑这些因素是否对agent达到目标有影响？

Document