正在加载...
请使用更现代的浏览器并启用 JavaScript 以获得最佳浏览体验。
加载论坛时出错,请强制刷新页面重试。
全部主题
如何评价书籍《强化学习:前沿算法与应用》
【京东招聘-北京-强化学习博士实习生】
微软亚洲研究院数据知识智能组招聘强化学习方向研究实习生
【新书推荐】多智能体强化学习
博士申请 | 香港中文大学(深圳)刘桂良老师招收强化学习方向全奖博士/硕士/RA
求助,QMIX算法官方代码的agent决策网络是共用的吗?
求助,QMIX算法官方代码的agent决策网络是共用的吗?
在DRL中,假如并不是所有动作都可以选择,那么对于动作的约束应该加到哪里呢?
OpenLLaMA2 单卡全量 llama-2 7B RLHF 微调开箱即用
多智能体强化学习中,让所有智能体同构时,让他们参数共享时有没有理论保证?
如何评价文章:Foundation Models for Decision Making
车联网任务卸载强化学习环境结束条件的设定疑问
【强化学习】清华大学交叉信息研究院黄隆波副教授招收2024 年秋季博士生
如何评价《深度强化学习图解》这本书?免费赠送5本
强化学习中动作对环境或状态一定要有影响吗?
如何看待RLHF技术的开放问题和基础挑战?
在RLHF中,如何训练一个高质量的RM模型?
【正定私募】量化竞赛金牌团队「深度学习方向」招募
PPO在连续动作(Pendulum-v1)下的代码报错
PPO中的Value network收敛到一个固定值,该如何解决。
« 上一页
下一页 »
Document