正在加载...
请使用更现代的浏览器并启用 JavaScript 以获得最佳浏览体验。
加载论坛时出错,请强制刷新页面重试。
前沿报道
【重磅中文综述】南京大学LAMDA团队发布“开放环境下的协作多智能体强化学习进展综述”,包含519篇参考文献
【重磅Nature+代码开源】DeepMind提出AlphaDev, 用强化学习将排序算法提升70%
人工智能发展简史
微软Build大会Andrej Karpathy解密:GPT状态和原理和ChatGPT模型训练练
【John Schulman】Reinforcement Learning from Human Feedback:Progress and Challenge
基于人类反馈的强化学习(RLHF)[译]
ChatGPT 架构师,伯克利校友John Schulman的人工智能之旅
智能体如何应对环境突变:快速感知和自适应
跨越合作壁垒——多智能体高效动态协同之路
探寻智能体自己的语言——迈向人机交互强化学习
【95页报告】ChatGPT详细报告(涉及算法、数据集、评价指标等信息)
一种基于强化学习的联邦学习算法:AutoFL
如何评价最近OpenAI推出的ChatGPT?这会对未来产生什么样的影响?
【上交&腾讯】深度强化学习模型预训练综述(Pretraining in Deep Reinforcement Learning)
【AlphaTensor中文讲解】李宏毅老师详解矩阵运算原理(附Slide)
【PNAS重磅】斯坦福李飞飞团队提出"社会化 AI 的强化学习框架",只有AI 与人类互动才能提高智能水平
【强化学习先驱Richard Sutton】开发新型计算智能体的12个步骤
了解强化学习的“简单性”:摆脱 RL 麻烦的综合技巧(tips)
【ICLR2022】强化学习中智能体应该什么时候探索?
并行环境让采样速度快两个量级:Isaac Gym提速强化学习
« 上一页
下一页 »
Document