使用一张图片和一个点击位置做测试,使用accumulate reward 衡量算法,无法收敛
Ciachy
一点小建议,将训练结果图、问题关键信息贴上来,不然只说无法收敛,RLer们都不能get到问题,怎么回答?