正在加载...
请使用更现代的浏览器并启用 JavaScript 以获得最佳浏览体验。
加载论坛时出错,请强制刷新页面重试。
全部主题
强化学习的奖励设计的时候可以全是正值吗?
深度强化学习算法在状态转移概率不确定的环境中如何训练使其收敛?
强化学习中的表征(Representations)泛化
气球学习环境(The Balloon Learning Environment)
【公开课】强化学习2021版十三讲 德梅萃·P. 博赛卡斯(Dimitri P. Bertsekas)
【NeurIPS2020-MeetUp演讲】俞扬:强化学习与环境模型
【比赛结果公布】AI决策•强化学习落地挑战赛——学习制定平等的促销策略
商汤科技研究院强化学习实习生招聘
【FinRL生态系统】使用强化学习进行有效地自动化交易,
awesome-offline-rl
西湖大学工学院机器智能实验室(milab)博士后和科研助理招聘
二轮差动小车模型,DDPG训练,陷入局部最优,在终点附近打转
【重磅】Gym发布 8 年后,迎来第一个完整的环境文档
Reinforcement Q-Learning from Scratch in Python with OpenAI Gym
Tutorial: An Introduction to Reinforcement Learning Using OpenAI Gym
【IEEE CoG 2022征稿】会议录用18项竞赛,炫彩介绍,欢迎各路RLers参加!
【复赛正式开启•报名参赛持续进行中】AI决策•强化学习落地挑战赛——学习制定平等的促销策略
【IEEE CoG 2022征稿】基于DRL的游戏AI均可投稿,欢迎加入投稿交流群。
RLDS:强化学习数据集的制作工具
使用深度强化学习设计控制器,怎么利用李雅普诺夫函数证明稳定性呢?
« 上一页
下一页 »
Document