puccih
(1) linkangd 说的原因是存在的,本身探索和利用就是个难题
(2)有可能奖励最大化了但并没有解决任务问题,属于方面一般叫reward hacking
(3) 初始化的种子对算法的测试影响一般很大,这也是很多论文选取seed=5去测试求标准差的原因。
可能是exploration不足,有一些state没有到达过
很多个epoch有多少呢,我针对一个电力系统中的问题训练的智能体,在超过数十万次互动后还是会出现失败的情况。最后达到预期效果,总的互动次数超过了300万次