为什么强化学习训练了很多个epoch后，还是会出现失败的情况 - 深度强化学习实验室

为什么强化学习训练了很多个epoch后，还是会出现失败的情况

puccih

实验室官方助手

（1） linkangd 说的原因是存在的，本身探索和利用就是个难题

（2）有可能奖励最大化了但并没有解决任务问题，属于方面一般叫reward hacking

(3) 初始化的种子对算法的测试影响一般很大，这也是很多论文选取seed=5去测试求标准差的原因。

linkangd

可能是exploration不足，有一些state没有到达过

RichriD

很多个epoch有多少呢，我针对一个电力系统中的问题训练的智能体，在超过数十万次互动后还是会出现失败的情况。最后达到预期效果，总的互动次数超过了300万次

Document