深度强化学习实验室

DeepRLHub

深度强化学习实验室，一个"开源开放、共享共进"的学术组织/社区

了解更多

我们能做什么？

开源开放践行者
共享共进推动者

推动互相帮助，让每一位RLer能够快速成长。

提供最便捷的研究者与爱好者交流平台/社区。
收藏最全面的深度强化学习资料/资源。
分享最前沿的业界动态和行业发展趋势。
阐述深度强化学习的基本原理、前沿算法、场景应用、竞赛分析、论文分享等专业知识。
连接爱好者与学术界/工业界

开源

开源了100+份学习资料与代码。

开放

为30K+爱好者提供交流社区与交流平台。

共享

鼓励RLer分享各个方向的技术资料

共进

和所有爱好者共同进步，攻克技术难题

如何降低深度强化学习研究的计算成本？

如何降低深度强化学习研究的计算成本？

基于多智能体强化学习的《星际争霸II》中大师级水平的技术研究

基于多智能体强化学习的《星际争霸II》中大师级水平的技术研究

国内外做强化学习的老师，高校以及公司总结

国内外做强化学习的老师，高校以及公司总结

登顶Nature的AlphaGo Zero

登顶Nature的AlphaGo Zero

如何选择深度强化学习算法？

如何选择深度强化学习算法？

欢迎供稿上榜

欢迎供稿上榜

业界定位

技术领域的聚集地
产业界/学术界和从业者的连接桥梁

RL研究者/爱好者

对强化学习技术感兴趣的学生、工程师、从业者、高校老师/研究员等

深度强化学习实验室

开源开放、共享共进

学术界/产业界

提供一流的技术岗位，技术难题和薪资

研究者讨论

Questions and answers for
DeepRL Technology

更多讨论与回答

国内外强化学习领域的实验室、老师/学者/工程师、高校/公司有哪些？

国外(Sergey Levine、Pieter Abbel、 Dimitri Bertsekas、 Emma Brunskill、 Chelsea Finn、David Sliver、Richard Sutton、Dale、 Michael Bowling、Csaba、Benjamin Van Roy等）
国内(俞扬、高阳、张伟楠、俞凯、郝建业、李升波、田渊栋、李厚强、周文罡等)
深度强化学习技术的应用发展趋势、场景以及落地实例？

深度强化学习和图深度学习都是深度比较新的研究方向，随着近几年的发展应该会推进深度学习更上一个台阶，深度学习目前在互联网，物联网运用比较广泛，一般都需要嵌入式开发，以后深度落地场景应该更趋向与物联网方面，比如机器人开发，或者最近比较火的无人共享汽车，以及在物流仓储行业的使用.
什么原因容易导致强化学习训练中的损失函数很高

这种问题，如果环境和超参数没错的话，换个强化算法就行了。可以用TD3或者SAC，尤其TD3就是专门用延迟更新动作网络、约束最大Q值、增加更新目标网络的噪声等方法，解决DDPG振荡的，效果拔群。欢迎使用我最近分享的代码库，有tf1和torch版本的主流offpolicy强化算法，DDPG，SAC，TD3，对每个算法都增加了非常简洁的HER和PER的封装，调用方便~
如何确定“深度强化学习”算法训练到收敛？

策略熵指标：对于随机性策略（PPO等）可以用策略熵来表示策略是否“确定”。在训练过程中随着策略提升，策略变得越来越确定，此时熵应该是随着逐渐降低的，熵曲线趋于平缓。
loss指标: 这是DL中的直观指标，虽然不能直接用在DRL来说明策略好坏，但loss是在一直下降还是已经趋于平缓了，可以一定程度上说明网络模型的学习程度，看模型是“学会了”还是“学废了”，趋于平缓可能就是已经训练差不多了，当然“训练差不多”不代表“策略最优”，有些可能loss还在掉，但是策略表现改进不大一直很差（即时已经训练很久）。
reward指标: 这是一个比较直观的指标，但是需要定义清楚是否能直接反应我们策略好坏。reward大多是对于状态之间转移的即时奖励，和整个决策规划的好坏不能直接等价。以下以“DRL用于agent决策导航”为例，我们目标是在最短时间到达目标点同时避障。
强化学习论文里的训练曲线是用什么画的？如何计算相关变量？

加强版spinning up的plot.py脚本。相比于原始的plot.py文件，增加了如下的功能： 1.可以直接在pycharm或者vscode执行，也可以用命令行传参； 2.按exp_name排序，而不是按时间排序； 3.固定好每个exp_name的颜色； 4.可以调节曲线的线宽，便于观察； 5.保存图片到本地，便于远程ssh画图~
深度强化学习领域的面试题目有哪些？

（1）蒙特卡洛、TD、动态规划的关系？（2）DQN的几个变种以及各自解决了那些问题？（3）深度强化学习中的DQN和A3C区别与联系？（4）策略梯度的推导过程？（5）策略梯度和actor-critic的关系与对比？（6）A3C和DDPG区别和共同点？（7）value-based和policy-based关系？（8）off-policy和on-policy的好与坏？（9）表格式到函数近似的理解？（10）Actor-Critic的优点？（11）Actor和Critic两者的区别？（12）advantage(优势函数)推导过程，如何计算？

查看更多讨论与回答

testimonial-style-four

Community Talk -- 社区伙伴评论榜

钟宏远

学者

开源是非常重要的一种软件开发模式，深度强化学习实验室赋予新的的发展理念，以开放的形式推动技术发展，是未来发展的趋势

王建武

知语科技公司CEO

深度强化学习是认知智能和决策智能的关键，深度强化学习实验室践行开源开放、共享共进的理念，极大的推动了社区与技术的进步。

杨根

博士/学者

深度强化学习被认为是决策智能的关键突破技术，深度强化学习实验室提供一个交流的平台，极大推进了该技术在国内的发展。

张秉桢

第四范式/学者

深度强化学习实验室是一个非常不错的强化学习交流平台，值得业界和所有爱好者共同建设

李赤

香港中文大学/学者

深度强化学习实验室是一个非常不错的强化学习交流平台，值得业界和所有爱好者共同建设

testimonial-style-four end

0k

研究者
从业者

0k

讨论主题

0

学者
科学家

0+

技术文章

合作/赞助伙伴