• RL研讨会
  • 【开放讨论】深度强化学习技术的应用发展趋势、场景以及落地实例

深度强化学习和图深度学习都是深度比较新的研究方向,随着近几年的发展应该会推进深度学习更上一个台阶,深度学习目前在互联网,物联网运用比较广泛,一般都需要嵌入式开发,以后深度落地场景应该更趋向与物联网方面,比如机器人开发,或者最近比较火的无人共享汽车,以及在物流仓储行业的使用

    实验室官方助手 目前机器学习各个领域取得的成就离不开大数据的驱动,而强化学习本身并不存在数据,只有和环境交互得到的数据,但这一交互过程的代价和成本十分高昂,直接阻碍了强化学习在实际中的应用。一方面,许多研究者在顺着这条研究思路尽可能得降低采样成本,提出高效的方法;另一方面,我在想,能否让强化学习摆脱数据的驱动或者说降低对于数据量的需求?西安交通大学的徐宗本院士提到过“数据不够模型补,模型不精数据上”的思想,类似的,不知道model-based一些方法能否成为强化学习落地的破局之道呢?

      趋势个人认为是进一步增强“深度”学习,现有的分布式虽然能加速学习,但是算力成本高昂,且十分依赖网络来提供自主“智能”保障,未来应该注重“本地”自主智能构建。

        主要有这么以下几个方面,每个都举个例子,都是公众号文章,简单易懂,一目了然
        我个人主要关注推荐系统和量化部分,其他的还知道的很浅薄。
        我认为强化学习在金融行业和互联网营销行业会先行突破,因为这部分企业本身数据化程度非常高,不缺数据。同时人员的成本很高,强化学习的应用动力比较大。

        一、量化交易:
        What?100%基于深度强化学习的对冲基金
        https://mp.weixin.qq.com/s?src=11&timestamp=1626873219&ver=3204&signature=23WuZ3kiUdqSlSJnojxaNbKqrYwduQRfLl8GjMmoxMh4jI5Wi0kcMv-7W0CGGJvEgRGvg44DqI2krbG*AX3KrK3GkAH*19IFsUC3qEhYIkGZH1v6EsNEmzghaXCuFkuC&new=1

        二、机器人:
        深度强化学习让机器人运动更灵活智能
        https://mp.weixin.qq.com/s?src=11&timestamp=1626873649&ver=3204&signature=7HfpoJQuB4rEmowAxg4kAF0HkHPavTtw0f0YeRm-M0O8LWzajwv7DvmEnk*UWeR6HH6pzLFswyoGdc2LjO4QWUiHg*QkIFv9caLN-NCp3SXj4VE0y3dQ0x9C2KZp1Hb3&new=1

        三、自然语言处理:
        强化学习在NLP和推荐系统中的应用简介
        https://mp.weixin.qq.com/s?src=11&timestamp=1626873612&ver=3204&signature=ut2XJBlwzMAq8PoouFcnhEETYqnaRPKxw7Zx8sRwTUFf5IYb522Wm7sVr4i7DdTb4FsB*AQWfAZoQj8pVscLuZA0ADwED1IqKEKT1OZbUyHj2poB8BFVtayjfvN1iUfo&new=1
        四、推荐系统:

        猜您所想:淘宝搜索/推荐系统背后深度强化学习与自适应在线学习的实践之路
        https://mp.weixin.qq.com/s?src=3&timestamp=1626873458&ver=1&signature=dLgAoBsKg8-yyZDhqIpk7uHXpKEqxm9qEV36xu8QxjtLy-b0hc59dlSG1wPnBvfC6ygzsHuqpWx5JfPHFJYqewIw1aQclIUznkdwLF7iCZHKbxTzlW0X1vu-DoGnKvVpDvGwK3awV*6orwiB8Dwn-FtnHp*fPH3W56CVW5V6M9Y=

        六、游戏对抗

        基于多智能体强化学习主宰星际争霸游戏
        https://mp.weixin.qq.com/s?src=11&timestamp=1626873502&ver=3204&signature=Vw4SHf8ADZOwUsJsjB9DRD2zAnWkM85htN2HtAFrvnhxzo2mkZg5qjRpcB8kldhS3-zw4gbuu7X24OMmGvTKFSZI-VY3n90tutKuk4rKDZs7FdwKvUFCK32iw*SuOmTc&new=1

        【强化学习】(二)王者荣耀"绝悟"解读
        https://mp.weixin.qq.com/s?src=11&timestamp=1626873548&ver=3204&signature=RIYmpXSUHvGX*9JVqI1hgUfQtTey1*m5SlKOwkDYdAK1ZT3MbQ3RAr*upNp8AU5S*CbWrdEiqgtqEIQE2zc*cBrioZFPWrHO9C9j5LO4QeBD0ZrKhzxqtdO77FFgM-d3&new=1

        七、工业控制
        学术报告 | 基于深度强化学习的配电网控制
        https://mp.weixin.qq.com/s?src=11&timestamp=1626873353&ver=3204&signature=711ld5mSFQzC5VTnVANhhyga9TJ2LkcstwmPVk5tjWheDnidGHqzTw3tvzeBluwArTKbYE0wmcF9jhSmoZYKBGqu4VEWfus3wTuVUbYef-v3uPzbfIsO113WwcLl6RPm&new=1

          forrestneo
          赞同楼主观点。

          • 量化交易,比较有应用动力(俗话说钱到位啥都好说,哈哈哈),我看论坛里之前介绍过FinRL项目的 http://deeprlhub.com/d/156-finrl
          • 还有一些药物研发方面,之前浏览过相关论文,比如蛋白质和多肽药物的结合等
          • 现在用RL做自动驾驶的好像也挺多,不过对可靠性表示有所担忧,希望业界能够做出更多成果
          • 自动驾驶: 自动驾驶载具(self-driving vehicle)
          • 控制论(离散和连续大动作空间): 玩具直升机、Gymm_cotrol物理部件控制、机器人行走、机械臂控制。
          • 游戏: Go, Atari 2600(DeepMind论文详解)等
          • 理解机器学习: 自然语言识别和处理, 文本序列预测
          • 超参数学习: 神经网络参数自动设计
          • 问答系统: 对话系统
          • 推荐系统: 阿里巴巴黄皮书(商品推荐),广告投放。
          • 智能电网: 电网负荷调试, 调度等
          • 通信网络: 动态路由, 流量分配等
          • 物理化学实验: 定量实验,核素碰撞,粒子束流调试\等
          • 程序学习和网络安全: 网络攻防等

          参考链接:https://blog.csdn.net/gsww404/article/details/79763003

            PonyShan 自动驾驶的隐忧主要是 外部其他人和其他人驾驶车辆的不确定性行为(包括冒险行为和误操作行为),如果全部都统一自动化和调度,会比人驾驶出现事故低很多(一方面是人躲不过,个人认为机器决策最差也就和人一样躲不过,另一方面突发情况,人本能行为往往会使得事故更糟,而机器决策会最优)

              leishenoo7

              是这么回事,现实路段和交通情况很复杂,但用于自动驾驶的规划层应该可能性比较大,如果整个序列都去决策,目前估计也就只能在类似于Carla等模拟环境中玩玩。

              目前DRL主要应用在游戏和机器人控制,但在优化层面属于刚刚起步。
              我比较关注DRL在智能电网优化调度方面的应用。通过更换算法中的action space、state space和reward,使强化学习算法求解多目标优化问题。这样做的优势是可以不依赖于模型,但问题是收敛性无法保证。
              总体来说我认为强化学习做优化还有很多工作可以做。同时在落地场景方面,电网和电动汽车的优化调度是有应用空间的。但是存在一个容错率的问题,涉及到电力的场景都是需要以稳定性为中心的,因此如何使DRL应用已有数据去控制负荷的调度是一个挑战。

                如何将强化学习从仿真中转到现实世界?现在是否有相关研究?

                强化学习的反馈决策也许可以使NLP在文本理解上更具灵活性,不过目前看RL在NLP中的一些应用大多数fine-tune效果。
                举几个强化学习爱在文本生成中的应用
                SeqGAN:Sequence Generative Adversarial Nets with Policy GradientLantaoYu/SeqGAN
                RankGAN:[1705.11001] Adversarial Ranking for Language Generationdesire2020/RankGAN
                LeakGAN:[1709.08624] Long Text Generation via Adversarial Training with Leaked InformationCR-Gjx/LeakGAN

                  现在强化学习的应用还最多在游戏等虚拟应用方面,还没有过多渗入到人们的社会领域。它的问题有对样本数据的低效性和为追求reward可能带来的种种限制。如果在未来这些关键性问题可以解决一部分的话,强化学习也可能会应用于更多的现实场景,像自动驾驶或一些物联网之类的。

                  深度强化学习,未来应该加强图网络、深度强化学习以及生成式对抗网络等前沿技术研究。由于我国在深度学习领域缺乏重大原创性研究成果,基础理论研究贡献不足,如胶囊网络、图网络等创新性、原创性概念是由美国专家提出,我国研究贡献不足。在深度强化学习方面,目前最新的研究成果大都是由DeepMind和OpenAI等国外公司的研究人员提出,我国尚没有突破性研究成果。近几年的研究热点生成式对抗网络(GAN)是由美国的研究人员Goodfellow提出,并且谷歌、facebook、twitter和苹果等公司纷纷提出了各种改进和应用模型,有力推动了GAN技术的发展,而我国在这方面取得的研究成果较少。因此,应鼓励科研院所及企业加强深度神经网络与因果推理模型结合、生成式对抗网络以及深度强化学习等前沿技术的研究,提出更多原创性研究成果,增强全球学术研究影响力。
                  未来还应该加快自动化机器学习、模型压缩等深度学习应用技术研究。依托国内的市场优势和企业的成长优势,针对具有我国特色的个性化应用需求,加快对深度学习应用技术的研究。加强对自动化机器学习、模型压缩等技术的研究,加快深度学习的工程化落地应用。加强深度学习在计算机视觉领域应用研究,进一步提升目标识别等视觉任务的准确率,以及在实际应用场景中的性能。加强深度学习在自然语言处理领域的应用研究,提出性能更优的算法模型,提升机器翻译、对话系统等应用的性能。

                  深度强化学习,随着时代变迁,未来会有越来越多的人学习这一方面,随着机器学习的发展,未来机器人的使用以及智能驾驶技术也会越来越成熟。

                    8 天 后

                    获奖名单:

                    恭喜以下伙伴积极参与本帖讨论,并为本帖提供优质回答,实验室特联合人民邮电出版社图灵社区,为各位伙伴免费赠送书籍一本《用Python动手学强化学习》活动链接

                    名单如下:
                    摸鱼籽 OAA forrestneo PonyShan XQY 小迷彩 Dragon leishenoo7

                    实验室将与各位伙伴邮件联系书籍邮寄,请各位伙伴关注邮箱。

                    后续实验室将继续为大家谋取福利,欢迎大家在论坛参与讨论,和大家共同成长!

                      forrestneo

                      链接都已经过期了,请问在哪里可以找到原帖吗,多谢,

                      11 天 后
                      6 个月 后

                      强化学习用在自动驾驶中如何考虑安全性呢?

                      2 个月 后

                      Dragon 我看过一个观点是:model-based 方法在计算机模拟的环境下的优势不大,在需要和真实的物理环境交互的场景中有显著优势。我本人未接触过 model-based 的方法,仅供参考

                      Document