本帖为开放讨论帖,主要探讨 深度强化学习技术的应用发展趋势、应用场景、落地实例等等。下图抛砖引玉
欢迎大家广泛讨论。
本帖为开放讨论帖,主要探讨 深度强化学习技术的应用发展趋势、应用场景、落地实例等等。下图抛砖引玉
欢迎大家广泛讨论。
深度强化学习和图深度学习都是深度比较新的研究方向,随着近几年的发展应该会推进深度学习更上一个台阶,深度学习目前在互联网,物联网运用比较广泛,一般都需要嵌入式开发,以后深度落地场景应该更趋向与物联网方面,比如机器人开发,或者最近比较火的无人共享汽车,以及在物流仓储行业的使用
趋势个人认为是进一步增强“深度”学习,现有的分布式虽然能加速学习,但是算力成本高昂,且十分依赖网络来提供自主“智能”保障,未来应该注重“本地”自主智能构建。
主要有这么以下几个方面,每个都举个例子,都是公众号文章,简单易懂,一目了然
我个人主要关注推荐系统和量化部分,其他的还知道的很浅薄。
我认为强化学习在金融行业和互联网营销行业会先行突破,因为这部分企业本身数据化程度非常高,不缺数据。同时人员的成本很高,强化学习的应用动力比较大。
一、量化交易:
What?100%基于深度强化学习的对冲基金
https://mp.weixin.qq.com/s?src=11×tamp=1626873219&ver=3204&signature=23WuZ3kiUdqSlSJnojxaNbKqrYwduQRfLl8GjMmoxMh4jI5Wi0kcMv-7W0CGGJvEgRGvg44DqI2krbG*AX3KrK3GkAH*19IFsUC3qEhYIkGZH1v6EsNEmzghaXCuFkuC&new=1
二、机器人:
深度强化学习让机器人运动更灵活智能
https://mp.weixin.qq.com/s?src=11×tamp=1626873649&ver=3204&signature=7HfpoJQuB4rEmowAxg4kAF0HkHPavTtw0f0YeRm-M0O8LWzajwv7DvmEnk*UWeR6HH6pzLFswyoGdc2LjO4QWUiHg*QkIFv9caLN-NCp3SXj4VE0y3dQ0x9C2KZp1Hb3&new=1
三、自然语言处理:
强化学习在NLP和推荐系统中的应用简介
https://mp.weixin.qq.com/s?src=11×tamp=1626873612&ver=3204&signature=ut2XJBlwzMAq8PoouFcnhEETYqnaRPKxw7Zx8sRwTUFf5IYb522Wm7sVr4i7DdTb4FsB*AQWfAZoQj8pVscLuZA0ADwED1IqKEKT1OZbUyHj2poB8BFVtayjfvN1iUfo&new=1
四、推荐系统:
猜您所想:淘宝搜索/推荐系统背后深度强化学习与自适应在线学习的实践之路
https://mp.weixin.qq.com/s?src=3×tamp=1626873458&ver=1&signature=dLgAoBsKg8-yyZDhqIpk7uHXpKEqxm9qEV36xu8QxjtLy-b0hc59dlSG1wPnBvfC6ygzsHuqpWx5JfPHFJYqewIw1aQclIUznkdwLF7iCZHKbxTzlW0X1vu-DoGnKvVpDvGwK3awV*6orwiB8Dwn-FtnHp*fPH3W56CVW5V6M9Y=
六、游戏对抗
七、工业控制
学术报告 | 基于深度强化学习的配电网控制
https://mp.weixin.qq.com/s?src=11×tamp=1626873353&ver=3204&signature=711ld5mSFQzC5VTnVANhhyga9TJ2LkcstwmPVk5tjWheDnidGHqzTw3tvzeBluwArTKbYE0wmcF9jhSmoZYKBGqu4VEWfus3wTuVUbYef-v3uPzbfIsO113WwcLl6RPm&new=1
forrestneo
赞同楼主观点。
PonyShan 自动驾驶的隐忧主要是 外部其他人和其他人驾驶车辆的不确定性行为(包括冒险行为和误操作行为),如果全部都统一自动化和调度,会比人驾驶出现事故低很多(一方面是人躲不过,个人认为机器决策最差也就和人一样躲不过,另一方面突发情况,人本能行为往往会使得事故更糟,而机器决策会最优)
是这么回事,现实路段和交通情况很复杂,但用于自动驾驶的规划层应该可能性比较大,如果整个序列都去决策,目前估计也就只能在类似于Carla等模拟环境中玩玩。
目前DRL主要应用在游戏和机器人控制,但在优化层面属于刚刚起步。
我比较关注DRL在智能电网优化调度方面的应用。通过更换算法中的action space、state space和reward,使强化学习算法求解多目标优化问题。这样做的优势是可以不依赖于模型,但问题是收敛性无法保证。
总体来说我认为强化学习做优化还有很多工作可以做。同时在落地场景方面,电网和电动汽车的优化调度是有应用空间的。但是存在一个容错率的问题,涉及到电力的场景都是需要以稳定性为中心的,因此如何使DRL应用已有数据去控制负荷的调度是一个挑战。
如何将强化学习从仿真中转到现实世界?现在是否有相关研究?
强化学习的反馈决策也许可以使NLP在文本理解上更具灵活性,不过目前看RL在NLP中的一些应用大多数fine-tune效果。
举几个强化学习爱在文本生成中的应用
SeqGAN:Sequence Generative Adversarial Nets with Policy GradientLantaoYu/SeqGAN
RankGAN:[1705.11001] Adversarial Ranking for Language Generationdesire2020/RankGAN
LeakGAN:[1709.08624] Long Text Generation via Adversarial Training with Leaked InformationCR-Gjx/LeakGAN
现在强化学习的应用还最多在游戏等虚拟应用方面,还没有过多渗入到人们的社会领域。它的问题有对样本数据的低效性和为追求reward可能带来的种种限制。如果在未来这些关键性问题可以解决一部分的话,强化学习也可能会应用于更多的现实场景,像自动驾驶或一些物联网之类的。
深度强化学习,未来应该加强图网络、深度强化学习以及生成式对抗网络等前沿技术研究。由于我国在深度学习领域缺乏重大原创性研究成果,基础理论研究贡献不足,如胶囊网络、图网络等创新性、原创性概念是由美国专家提出,我国研究贡献不足。在深度强化学习方面,目前最新的研究成果大都是由DeepMind和OpenAI等国外公司的研究人员提出,我国尚没有突破性研究成果。近几年的研究热点生成式对抗网络(GAN)是由美国的研究人员Goodfellow提出,并且谷歌、facebook、twitter和苹果等公司纷纷提出了各种改进和应用模型,有力推动了GAN技术的发展,而我国在这方面取得的研究成果较少。因此,应鼓励科研院所及企业加强深度神经网络与因果推理模型结合、生成式对抗网络以及深度强化学习等前沿技术的研究,提出更多原创性研究成果,增强全球学术研究影响力。
未来还应该加快自动化机器学习、模型压缩等深度学习应用技术研究。依托国内的市场优势和企业的成长优势,针对具有我国特色的个性化应用需求,加快对深度学习应用技术的研究。加强对自动化机器学习、模型压缩等技术的研究,加快深度学习的工程化落地应用。加强深度学习在计算机视觉领域应用研究,进一步提升目标识别等视觉任务的准确率,以及在实际应用场景中的性能。加强深度学习在自然语言处理领域的应用研究,提出性能更优的算法模型,提升机器翻译、对话系统等应用的性能。
深度强化学习,随着时代变迁,未来会有越来越多的人学习这一方面,随着机器学习的发展,未来机器人的使用以及智能驾驶技术也会越来越成熟。
获奖名单:
恭喜以下伙伴积极参与本帖讨论,并为本帖提供优质回答,实验室特联合人民邮电出版社图灵社区,为各位伙伴免费赠送书籍一本《用Python动手学强化学习》,活动链接
名单如下:
摸鱼籽 OAA forrestneo PonyShan XQY 小迷彩 Dragon leishenoo7
实验室将与各位伙伴邮件联系书籍邮寄,请各位伙伴关注邮箱。
后续实验室将继续为大家谋取福利,欢迎大家在论坛参与讨论,和大家共同成长!
链接都已经过期了,请问在哪里可以找到原帖吗,多谢,
实验室官方助手 太棒了这本书。
强化学习用在自动驾驶中如何考虑安全性呢?