正在加载...
请使用更现代的浏览器并启用 JavaScript 以获得最佳浏览体验。
加载论坛时出错,请强制刷新页面重试。
奖励函数
涉及强化学习中的奖励工程,奖励函数,reward shaping等。
请问如何评价一个奖励函数设计的好坏呢?
Cliff Diving: 探索强化学习环境中的奖励表面
stable baseline3中TD3尝试股票交易碰到的问题
奖励函数这样,是陷入局部最小值了吗?
Document