【开放讨论】深度强化学习技术的应用发展趋势、场景以及落地实例

实验室官方助手

本帖为开放讨论帖，主要探讨 深度强化学习技术的应用发展趋势、应用场景、落地实例等等。下图抛砖引玉

欢迎大家广泛讨论。

Dragon

实验室官方助手目前机器学习各个领域取得的成就离不开大数据的驱动，而强化学习本身并不存在数据，只有和环境交互得到的数据，但这一交互过程的代价和成本十分高昂，直接阻碍了强化学习在实际中的应用。一方面，许多研究者在顺着这条研究思路尽可能得降低采样成本，提出高效的方法；另一方面，我在想，能否让强化学习摆脱数据的驱动或者说降低对于数据量的需求？西安交通大学的徐宗本院士提到过“数据不够模型补，模型不精数据上”的思想，类似的，不知道model-based一些方法能否成为强化学习落地的破局之道呢？

小迷彩

深度强化学习和图深度学习都是深度比较新的研究方向，随着近几年的发展应该会推进深度学习更上一个台阶，深度学习目前在互联网，物联网运用比较广泛，一般都需要嵌入式开发，以后深度落地场景应该更趋向与物联网方面，比如机器人开发，或者最近比较火的无人共享汽车，以及在物流仓储行业的使用

实验室官方助手

获奖名单：

恭喜以下伙伴积极参与本帖讨论，并为本帖提供优质回答，实验室特联合人民邮电出版社图灵社区，为各位伙伴免费赠送书籍一本《用Python动手学强化学习》，活动链接

名单如下：
摸鱼籽 OAA forrestneo PonyShan XQY 小迷彩 Dragon leishenoo7

实验室将与各位伙伴邮件联系书籍邮寄，请各位伙伴关注邮箱。

后续实验室将继续为大家谋取福利，欢迎大家在论坛参与讨论，和大家共同成长！

WalkMan

Dragon 我看过一个观点是：model-based 方法在计算机模拟的环境下的优势不大，在需要和真实的物理环境交互的场景中有显著优势。我本人未接触过 model-based 的方法，仅供参考

leishenoo7

趋势个人认为是进一步增强“深度”学习，现有的分布式虽然能加速学习，但是算力成本高昂，且十分依赖网络来提供自主“智能”保障，未来应该注重“本地”自主智能构建。

forrestneo

主要有这么以下几个方面，每个都举个例子，都是公众号文章，简单易懂，一目了然
我个人主要关注推荐系统和量化部分，其他的还知道的很浅薄。
我认为强化学习在金融行业和互联网营销行业会先行突破，因为这部分企业本身数据化程度非常高，不缺数据。同时人员的成本很高，强化学习的应用动力比较大。

一、量化交易：
What？100%基于深度强化学习的对冲基金
https://mp.weixin.qq.com/s?src=11&timestamp=1626873219&ver=3204&signature=23WuZ3kiUdqSlSJnojxaNbKqrYwduQRfLl8GjMmoxMh4jI5Wi0kcMv-7W0CGGJvEgRGvg44DqI2krbG*AX3KrK3GkAH*19IFsUC3qEhYIkGZH1v6EsNEmzghaXCuFkuC&new=1

二、机器人：
深度强化学习让机器人运动更灵活智能
https://mp.weixin.qq.com/s?src=11&timestamp=1626873649&ver=3204&signature=7HfpoJQuB4rEmowAxg4kAF0HkHPavTtw0f0YeRm-M0O8LWzajwv7DvmEnk*UWeR6HH6pzLFswyoGdc2LjO4QWUiHg*QkIFv9caLN-NCp3SXj4VE0y3dQ0x9C2KZp1Hb3&new=1

三、自然语言处理：
强化学习在NLP和推荐系统中的应用简介
https://mp.weixin.qq.com/s?src=11&timestamp=1626873612&ver=3204&signature=ut2XJBlwzMAq8PoouFcnhEETYqnaRPKxw7Zx8sRwTUFf5IYb522Wm7sVr4i7DdTb4FsB*AQWfAZoQj8pVscLuZA0ADwED1IqKEKT1OZbUyHj2poB8BFVtayjfvN1iUfo&new=1
四、推荐系统：

猜您所想：淘宝搜索/推荐系统背后深度强化学习与自适应在线学习的实践之路
https://mp.weixin.qq.com/s?src=3&timestamp=1626873458&ver=1&signature=dLgAoBsKg8-yyZDhqIpk7uHXpKEqxm9qEV36xu8QxjtLy-b0hc59dlSG1wPnBvfC6ygzsHuqpWx5JfPHFJYqewIw1aQclIUznkdwLF7iCZHKbxTzlW0X1vu-DoGnKvVpDvGwK3awV*6orwiB8Dwn-FtnHp*fPH3W56CVW5V6M9Y=

六、游戏对抗

基于多智能体强化学习主宰星际争霸游戏
https://mp.weixin.qq.com/s?src=11&timestamp=1626873502&ver=3204&signature=Vw4SHf8ADZOwUsJsjB9DRD2zAnWkM85htN2HtAFrvnhxzo2mkZg5qjRpcB8kldhS3-zw4gbuu7X24OMmGvTKFSZI-VY3n90tutKuk4rKDZs7FdwKvUFCK32iw*SuOmTc&new=1

【强化学习】（二）王者荣耀"绝悟"解读
https://mp.weixin.qq.com/s?src=11&timestamp=1626873548&ver=3204&signature=RIYmpXSUHvGX*9JVqI1hgUfQtTey1*m5SlKOwkDYdAK1ZT3MbQ3RAr*upNp8AU5S*CbWrdEiqgtqEIQE2zc*cBrioZFPWrHO9C9j5LO4QeBD0ZrKhzxqtdO77FFgM-d3&new=1

七、工业控制
学术报告 | 基于深度强化学习的配电网控制
https://mp.weixin.qq.com/s?src=11&timestamp=1626873353&ver=3204&signature=711ld5mSFQzC5VTnVANhhyga9TJ2LkcstwmPVk5tjWheDnidGHqzTw3tvzeBluwArTKbYE0wmcF9jhSmoZYKBGqu4VEWfus3wTuVUbYef-v3uPzbfIsO113WwcLl6RPm&new=1

PonyShan

forrestneo
赞同楼主观点。

量化交易，比较有应用动力（俗话说钱到位啥都好说，哈哈哈），我看论坛里之前介绍过FinRL项目的 http://deeprlhub.com/d/156-finrl
还有一些药物研发方面，之前浏览过相关论文，比如蛋白质和多肽药物的结合等
现在用RL做自动驾驶的好像也挺多，不过对可靠性表示有所担忧，希望业界能够做出更多成果
自动驾驶: 自动驾驶载具（self-driving vehicle）
控制论(离散和连续大动作空间): 玩具直升机、Gymm_cotrol物理部件控制、机器人行走、机械臂控制。
游戏: Go, Atari 2600(DeepMind论文详解)等
理解机器学习: 自然语言识别和处理, 文本序列预测
超参数学习: 神经网络参数自动设计
问答系统: 对话系统
推荐系统: 阿里巴巴黄皮书（商品推荐），广告投放。
智能电网: 电网负荷调试, 调度等
通信网络: 动态路由, 流量分配等
物理化学实验: 定量实验,核素碰撞,粒子束流调试\等
程序学习和网络安全: 网络攻防等

参考链接：https://blog.csdn.net/gsww404/article/details/79763003

Finn_1208

forrestneo

链接都已经过期了，请问在哪里可以找到原帖吗，多谢,

leishenoo7

PonyShan 自动驾驶的隐忧主要是外部其他人和其他人驾驶车辆的不确定性行为（包括冒险行为和误操作行为），如果全部都统一自动化和调度，会比人驾驶出现事故低很多（一方面是人躲不过，个人认为机器决策最差也就和人一样躲不过，另一方面突发情况，人本能行为往往会使得事故更糟，而机器决策会最优）

PonyShan

leishenoo7

是这么回事，现实路段和交通情况很复杂，但用于自动驾驶的规划层应该可能性比较大，如果整个序列都去决策，目前估计也就只能在类似于Carla等模拟环境中玩玩。

摸鱼籽

目前DRL主要应用在游戏和机器人控制，但在优化层面属于刚刚起步。
我比较关注DRL在智能电网优化调度方面的应用。通过更换算法中的action space、state space和reward，使强化学习算法求解多目标优化问题。这样做的优势是可以不依赖于模型，但问题是收敛性无法保证。
总体来说我认为强化学习做优化还有很多工作可以做。同时在落地场景方面，电网和电动汽车的优化调度是有应用空间的。但是存在一个容错率的问题，涉及到电力的场景都是需要以稳定性为中心的，因此如何使DRL应用已有数据去控制负荷的调度是一个挑战。

Lynn1998

如何将强化学习从仿真中转到现实世界？现在是否有相关研究？

OAA

强化学习的反馈决策也许可以使NLP在文本理解上更具灵活性，不过目前看RL在NLP中的一些应用大多数fine-tune效果。
举几个强化学习爱在文本生成中的应用
SeqGAN：Sequence Generative Adversarial Nets with Policy GradientLantaoYu/SeqGAN
RankGAN：[1705.11001] Adversarial Ranking for Language Generationdesire2020/RankGAN
LeakGAN：[1709.08624] Long Text Generation via Adversarial Training with Leaked InformationCR-Gjx/LeakGAN

cjz

现在强化学习的应用还最多在游戏等虚拟应用方面，还没有过多渗入到人们的社会领域。它的问题有对样本数据的低效性和为追求reward可能带来的种种限制。如果在未来这些关键性问题可以解决一部分的话，强化学习也可能会应用于更多的现实场景，像自动驾驶或一些物联网之类的。

XQY

深度强化学习，未来应该加强图网络、深度强化学习以及生成式对抗网络等前沿技术研究。由于我国在深度学习领域缺乏重大原创性研究成果，基础理论研究贡献不足，如胶囊网络、图网络等创新性、原创性概念是由美国专家提出，我国研究贡献不足。在深度强化学习方面，目前最新的研究成果大都是由DeepMind和OpenAI等国外公司的研究人员提出，我国尚没有突破性研究成果。近几年的研究热点生成式对抗网络（GAN）是由美国的研究人员Goodfellow提出，并且谷歌、facebook、twitter和苹果等公司纷纷提出了各种改进和应用模型，有力推动了GAN技术的发展，而我国在这方面取得的研究成果较少。因此，应鼓励科研院所及企业加强深度神经网络与因果推理模型结合、生成式对抗网络以及深度强化学习等前沿技术的研究，提出更多原创性研究成果，增强全球学术研究影响力。
未来还应该加快自动化机器学习、模型压缩等深度学习应用技术研究。依托国内的市场优势和企业的成长优势，针对具有我国特色的个性化应用需求，加快对深度学习应用技术的研究。加强对自动化机器学习、模型压缩等技术的研究，加快深度学习的工程化落地应用。加强深度学习在计算机视觉领域应用研究，进一步提升目标识别等视觉任务的准确率，以及在实际应用场景中的性能。加强深度学习在自然语言处理领域的应用研究，提出性能更优的算法模型，提升机器翻译、对话系统等应用的性能。

深度强化学习，随着时代变迁，未来会有越来越多的人学习这一方面，随着机器学习的发展，未来机器人的使用以及智能驾驶技术也会越来越成熟。

leishenoo7

实验室官方助手太棒了这本书。

wase

强化学习用在自动驾驶中如何考虑安全性呢？

Document