强化学习创新创意大赛研讨交流会——强化学习应用,可移步南栖仙策B站,观看完整视频。强化学习创新创意大赛研讨交流会
内容整理如下
俞老师的主题是《强化学习应用》,通过各种案例展示强化学习的应用成果,为了启发参赛选手大胆创新,把强化学习用到新的领域新的场景。你能想象人工智能帮你的混动汽车选择动力模式吗?实测证明这样可以降低油耗。强化学习还能帮购物平台的砍价机器人智能制定策略,在成交价不低于历史最低价的情况下促进成交。在火力发电过程中,强化学习生成策略控制循环水泵,以找到最优耗电-发电平衡点。
强化学习用于解决序列决策任务,智能体具备自己在环境里探索、学习、解决问题的能力,若限制到一定的决策空间,智能体可实现对开放环境的交互、决策。对强化学习的应用,需遵循问题分析、仿真模拟、策略求解、应用部署的流程。这其中,找到实际业务中有价值的问题并对问题建模,以及搭建一个接近于真实环境的模拟环境,非常关键。
数据驱动强化学习是一种基于历史数据训练环境和策略模型的技术路线,对这一技术路线的研究成果和应用经验均集成到强化学习智能决策工具包REVIVE SDK,只需少量数据即可显著提升决策效果,目前非商用场景可免费使用。
混动车模式控制案例
首先搭建一个业务模型,这要求设计者了解混动汽车的工作原理,包括发动机、电机、电池之间的关系和混动模式和油耗之间的关系等等。借助Revive算法,智能体从历史数据模拟一台混动汽车(仿真环境),如何评估仿真环境是否接近真实环境,一方面要跟历史数据接近、另一方面模型有泛化能力。通过历史数据学好模型,则可以进一步优化汽车每一秒选择混动模式的策略,智能体选择在低速的时候耗电,高速的时候充电。实测发现,在起点与终点时电量不变的约束下,强化学习提供的策略使油耗比历史策略降低2.56%。
出行平台用户建模案例
任务是给司机发奖励,每一天都会去做决策,司机完成任务就给奖励,一天下来司机的表现是状态,这个案例中是对人进行建模,学习状态是如何转移的,从而产生策略、优化策略,任务的目标是结果是完单数量更多、司机的收入增加,根据在三个城市的实测结果,司机的完单量平均提高了11.74%,收入平均提高了8.71%.
砍价机器人案例
这里涉及多种人工智能技术,强化学习主要用于生成价格策略,1件原价149元的商品,经过几轮机器人卖家与人类卖家的讨价还价,最终以121元成交,并确保成交价高于历史最低价格。由于这是站在卖家立场设计的策略,它可能导致买卖双方的不公平交易,因此未能实际上线,但它告诉我们一种技术应用的可能性。
火电厂全局优化案例
将全局煤和电节约效率作为reward,reward函数有时候可以设置,有的时候可以直接从数据中学习,这个案例中就是让智能体从历史数据中学习reward函数。实测发现,在330MW热电联产机组循环水控制中,相较于PID控制策略,节能提升3.52%。
还有一些用户建模、工业控制优化的案例,在这里就不详细介绍啦,大家可以到南栖仙策B站观看完整版视频,同时南栖仙策B站还提供了数据驱动强化学习(离线强化学习)开发工具包 REVIVE SDK 相关系列视频,欢迎小伙伴查看。REVIVE SDK 快速入门教程