DQN算法遇到了障碍求助

我令随机有0到5个苹果，状态为苹果的剩余个数，动作为拿苹果，奖励为拿到的苹果个数，如果拿苹果个数超出苹果剩余个数，奖励为0，我希望可以实现尽可能拿更多的苹果，为什么会训练不出来呢？

Document