正在加载...
请使用更现代的浏览器并启用 JavaScript 以获得最佳浏览体验。
加载论坛时出错,请强制刷新页面重试。
深度强化学习公式推导
MISTCARRYYOU
想问一下大家,在写深度强化学习应用类文章时(如应用PPO在股票机器人、应用DQN在车间调度),论文中公式的推导一般都是从哪产生的呢?感觉做的时候就是模型的堆叠和调试,只有公式表示,没有公式的推导。
Document