我们能做什么?

开源开放践行者
共享共进推动者

推动互相帮助,让每一位RLer能够快速成长。

  • 提供最便捷的研究者与爱好者交流平台/社区。
  • 收藏最全面的深度强化学习资料/资源。
  • 分享最前沿的业界动态和行业发展趋势。
  • 阐述深度强化学习的基本原理、前沿算法、场景应用、竞赛分析、论文分享等专业知识。
  • 连接爱好者与学术界/工业界

开源

开源了100+份学习资料与代码。

开放

为30K+爱好者提供交流社区与交流平台。

共享

鼓励RLer分享各个方向的技术资料

共进

和所有爱好者共同进步,攻克技术难题

业界定位

技术领域的聚集地
产业界/学术界和从业者的连接桥梁

RL研究者/爱好者

对强化学习技术感兴趣的学生、工程师、从业者、高校老师/研究员等

深度强化学习实验室

开源开放、共享共进

学术界/产业界

提供一流的技术岗位,技术难题和薪资

研究者讨论

Questions and answers for
DeepRL Technology

更多讨论与回答
  • 国内外强化学习领域的实验室、老师/学者/工程师、高校/公司有哪些?

    国外(Sergey Levine、Pieter Abbel、 Dimitri Bertsekas、 Emma Brunskill、 Chelsea Finn、David Sliver、Richard Sutton、Dale、 Michael Bowling、Csaba、Benjamin Van Roy等)
    国内(俞扬、高阳、张伟楠、俞凯、郝建业、李升波、田渊栋、李厚强、周文罡等)

  • 深度强化学习技术的应用发展趋势、场景以及落地实例?

    深度强化学习和图深度学习都是深度比较新的研究方向,随着近几年的发展应该会推进深度学习更上一个台阶,深度学习目前在互联网,物联网运用比较广泛,一般都需要嵌入式开发,以后深度落地场景应该更趋向与物联网方面,比如机器人开发,或者最近比较火的无人共享汽车,以及在物流仓储行业的使用.

  • 什么原因容易导致强化学习训练中的损失函数很高

    这种问题,如果环境和超参数没错的话,换个强化算法就行了。可以用TD3或者SAC,尤其TD3就是专门用延迟更新动作网络、约束最大Q值、增加更新目标网络的噪声等方法,解决DDPG振荡的,效果拔群。欢迎使用我最近分享的代码库,有tf1和torch版本的主流offpolicy强化算法,DDPG,SAC,TD3,对每个算法都增加了非常简洁的HER和PER的封装,调用方便~

  • 如何确定“深度强化学习”算法训练到收敛?

    策略熵指标: 对于随机性策略(PPO等)可以用策略熵来表示策略是否“确定”。在训练过程中随着策略提升,策略变得越来越确定,此时熵应该是随着逐渐降低的,熵曲线趋于平缓。
    loss指标: 这是DL中的直观指标,虽然不能直接用在DRL来说明策略好坏,但loss是在一直下降还是已经趋于平缓了,可以一定程度上说明网络模型的学习程度,看模型是“学会了”还是“学废了”,趋于平缓可能就是已经训练差不多了,当然“训练差不多”不代表“策略最优”,有些可能loss还在掉,但是策略表现改进不大一直很差(即时已经训练很久)。
    reward指标: 这是一个比较直观的指标,但是需要定义清楚是否能直接反应我们策略好坏。reward大多是对于状态之间转移的即时奖励,和整个决策规划的好坏不能直接等价。以下以“DRL用于agent决策导航”为例,我们目标是在最短时间到达目标点同时避障。

  • 强化学习论文里的训练曲线是用什么画的?如何计算相关变量?

    加强版spinning up的plot.py脚本。 相比于原始的plot.py文件,增加了如下的功能: 1.可以直接在pycharm或者vscode执行,也可以用命令行传参; 2.按exp_name排序,而不是按时间排序; 3.固定好每个exp_name的颜色; 4.可以调节曲线的线宽,便于观察; 5.保存图片到本地,便于远程ssh画图~

  • 深度强化学习领域的面试题目有哪些?

    (1)蒙特卡洛、TD、动态规划的关系? (2)DQN的几个变种以及各自解决了那些问题? (3)深度强化学习中的DQN和A3C区别与联系? (4)策略梯度的推导过程? (5)策略梯度和actor-critic的关系与对比? (6)A3C和DDPG区别和共同点? (7)value-based和policy-based关系? (8)off-policy和on-policy的好与坏? (9)表格式到函数近似的理解? (10)Actor-Critic的优点? (11)Actor和Critic两者的区别? (12)advantage(优势函数)推导过程,如何计算?

testimonial-style-four

Community Talk -- 社区伙伴评论榜

testimonial-style-four end
0k

研究者
从业者

0k

讨论主题

0

学者
科学家

0+

技术文章

合作/赞助伙伴