由江苏省人工智能学会、上海数字大脑研究院及南栖仙策共同发起的强化学习创新创意大赛结果出炉!
赛事回顾
强化学习创新创意大赛,旨在激发强化学习技术的应用创新,不设具体赛题。鼓励选手了解强化学习的机制原理、掌握强化学习的任务建模、发掘强化学习落地场景、展现强化学习的创新应用价值。
大赛自6月17日开赛以来吸引国内外高等院校、科研单位、企业单位负责人等数百人参与其中。
大赛经初赛、复赛两轮,4个月的激烈角逐之后,最终经由学术专家和产业专家共同评选出12支获奖队伍。其中4支队伍分别斩获“最佳项目奖”、“最佳实践奖”、“最佳创意奖”、“最佳社会价值奖”;8支队伍获得“优秀项目奖”。
获奖选手 Talk Time
最佳项目奖:止于至善队
“基于强化学习,实现分布式能源系统的智能决策未来是可行的。”
“目前国内外的分布式能源管理平台,虽然在数据感知层大量使用了人工智能技术,但在决策层还是基于传统的优化算法。这些算法受限于计算精度和实时性不能兼得,而且很难处理新能源带来的波动性和随机性问题。而强化学习可以处理这些问题。”
队长侯胜任来自荷兰代尔夫特理工大学,吴明贺、颜子恒来自东南大学。为应对全球气候变暖和能源危机,这支队伍将强化学习应用于新能源冲击下的能源管理系统,实现分布式能源系统的智能决策,使能源系统运行在高效、经济、安全、可靠的运行区间。在满足用户需求的前提下,大幅度降低公司系统运行成本,为客户创造更多的收益。
最佳创意奖:Brain Control队
“我一直认为强化学习方法会为生命科学领域里的一些问题带来突破。”
“本次获奖项目是我们团队将强化学习方法应用大脑疾病治疗的一次尝试,目的是为了更好地帮助医生和病人选择更合适的治疗策略,这不仅可以为病人带来更优的治疗效果,更可以释放大量的医疗资源。”
这是来自复旦大学的两位博士生,李岩和权昭宇,他们将强化学习应用于自动化脑深部电刺激的参数调节。也就是通过强化学习自动寻找个性化的最优刺激参数,产生最优的疾病治疗方案。
这项技术在未来将有机会在面向帕金森、瘫痪、癫痫和抑郁症等的疾病治疗中发挥巨大作用。减轻病人的痛苦,减少医生的工作量。
最佳社会价值奖:Traffic Go队
“作为交通从业者,我非常渴望能够攻坚克难,打造适用于我国的先进城市交通优化控制与缓堵平台。”
这是来自同济大学的博士后王一喆,他对被称为“交通工程领域王冠上的明珠”的世界性难题:交通控制和缓解拥堵 发起挑战。
基于强化学习的交通控制算法及机制,他通过构建可复用性强,自动化程度高的关键特征提取程序;搭建层次分明,易于查询的数据结构,即使面对随机性强,波动性大且呈非线性变化的复杂城市道路交通状况,也可以获得更高的可测性和可控制性。
最佳实践奖:穿梭在银河的火箭队
“希望能帮助更多人缩减决策时间,让人们将时间用在有更有价值的地方。”
“通过本次比赛,我们更加坚信了强化学习在决策领域巨大的潜力,希望能将学到的知识应用于实践,同时帮助大家理解机器决策过程中每一步的含义,也就是为什么这样做,能够带来更高的收益。”
这支队伍的陈涛,史晨佳和任智军老师来自于上海商学院,他们聚焦个体投资者和机构,提供完整高效可行的投资交易策略。他们的项目对中国的A股市场的环境和数据进行建模,将深度强化学习应用到金融领域,使用智能体模拟交易员,在A股市场中进行选股和择时交易,让决策更优越、更简单。
在项目进行到中后期,为了节省算力和时间,他们在REVIVE仙启平台进行了多智能体模型的训练。“不得不说,「仙启」的表现真的远超团队预期,只需要少量的代码便可以进行实操,这也极大的弥补了团队在多智能体模型上编码能力不足的缺陷,早点使用该平台也许项目进度会快很多。”
该项目在“东方财富杯”全国大学生金融挑战赛 进行了落地验证,以总收益20.93%战胜了全国98%的选手。为他们高兴!
在实际场景中的落地
南栖向参赛选手们提供了REVIVE「仙启」帮助选手还原现实场景,构建无限接近真实的虚拟环境,在这个环境中进行策略验证和对比,获得最终可迁移到实际应用中的最佳策略。
此外,感谢张伟楠、安波、张哲先、俞扬等教授和老师,抽出宝贵时间,为选手们提供了一对一的指导和讲座。
为了让更多对强化学习应用感兴趣的人从本次大赛中获益,主办方在南栖仙策B站官方账号上公开了部分讲座内容,点击讲座观看讲座视频。
大赛还涌现出了一批精彩的应用场景和项目,让我们一起来看看获奖名单!👇
诚如张伟楠老师在讲座中所言,强化学习所对标的决策智能拥有非常广阔的市场,因为在任何一个行业,一旦有决策优化的需求,就有可能使用到强化学习技术。
让我们共同期待,在未来,更多的人能够借助强化学习的力量改变世界!