推动互相帮助,让每一位RLer能够快速成长。
对强化学习技术感兴趣的学生、工程师、从业者、高校老师/研究员等
开源开放、共享共进
提供一流的技术岗位,技术难题和薪资
国外(Sergey Levine、Pieter Abbel、 Dimitri Bertsekas、 Emma Brunskill、 Chelsea Finn、David Sliver、Richard Sutton、Dale、 Michael Bowling、Csaba、Benjamin Van Roy等)
国内(俞扬、高阳、张伟楠、俞凯、郝建业、李升波、田渊栋、李厚强、周文罡等)
深度强化学习和图深度学习都是深度比较新的研究方向,随着近几年的发展应该会推进深度学习更上一个台阶,深度学习目前在互联网,物联网运用比较广泛,一般都需要嵌入式开发,以后深度落地场景应该更趋向与物联网方面,比如机器人开发,或者最近比较火的无人共享汽车,以及在物流仓储行业的使用.
这种问题,如果环境和超参数没错的话,换个强化算法就行了。可以用TD3或者SAC,尤其TD3就是专门用延迟更新动作网络、约束最大Q值、增加更新目标网络的噪声等方法,解决DDPG振荡的,效果拔群。欢迎使用我最近分享的代码库,有tf1和torch版本的主流offpolicy强化算法,DDPG,SAC,TD3,对每个算法都增加了非常简洁的HER和PER的封装,调用方便~
策略熵指标: 对于随机性策略(PPO等)可以用策略熵来表示策略是否“确定”。在训练过程中随着策略提升,策略变得越来越确定,此时熵应该是随着逐渐降低的,熵曲线趋于平缓。
loss指标: 这是DL中的直观指标,虽然不能直接用在DRL来说明策略好坏,但loss是在一直下降还是已经趋于平缓了,可以一定程度上说明网络模型的学习程度,看模型是“学会了”还是“学废了”,趋于平缓可能就是已经训练差不多了,当然“训练差不多”不代表“策略最优”,有些可能loss还在掉,但是策略表现改进不大一直很差(即时已经训练很久)。
reward指标: 这是一个比较直观的指标,但是需要定义清楚是否能直接反应我们策略好坏。reward大多是对于状态之间转移的即时奖励,和整个决策规划的好坏不能直接等价。以下以“DRL用于agent决策导航”为例,我们目标是在最短时间到达目标点同时避障。
加强版spinning up的plot.py脚本。 相比于原始的plot.py文件,增加了如下的功能: 1.可以直接在pycharm或者vscode执行,也可以用命令行传参; 2.按exp_name排序,而不是按时间排序; 3.固定好每个exp_name的颜色; 4.可以调节曲线的线宽,便于观察; 5.保存图片到本地,便于远程ssh画图~
(1)蒙特卡洛、TD、动态规划的关系? (2)DQN的几个变种以及各自解决了那些问题? (3)深度强化学习中的DQN和A3C区别与联系? (4)策略梯度的推导过程? (5)策略梯度和actor-critic的关系与对比? (6)A3C和DDPG区别和共同点? (7)value-based和policy-based关系? (8)off-policy和on-policy的好与坏? (9)表格式到函数近似的理解? (10)Actor-Critic的优点? (11)Actor和Critic两者的区别? (12)advantage(优势函数)推导过程,如何计算?
开源是非常重要的一种软件开发模式,深度强化学习实验室赋予新的的发展理念,以开放的形式推动技术发展,是未来发展的趋势
深度强化学习是认知智能和决策智能的关键,深度强化学习实验室践行开源开放、共享共进的理念,极大的推动了社区与技术的进步。
深度强化学习被认为是决策智能的关键突破技术,深度强化学习实验室提供一个交流的平台,极大推进了该技术在国内的发展。
深度强化学习实验室是一个非常不错的强化学习交流平台,值得业界和所有爱好者共同建设
深度强化学习实验室是一个非常不错的强化学习交流平台,值得业界和所有爱好者共同建设