众所周知,我们目前处在的时代是一个人工智能技术大爆发的时代,
而人工智能当前阶段的最高目标,就是实现通用人工智能,
即一个模型可以实现多种任务,而且该模型效果全面超过人类的能力。
而通用人工智能=神经网络+强化学习这个公式,已经逐步成为共识。
我个人从2019年开始学习和了解深度强化学习领域,
学习了比如stable_lines3,Ray,openAI gym,百度parl,elegantRL,tianshou,FinRL等等很多框架。
也参加了一些离线强化学习和多智能体学习的比赛。
我个人总结了一下自己感悟,
后续也会围绕强化学习写一些文章来阐述我的理念。
我此次要说一下我目前关注到的4个主要趋势:
1)深度强化学习注定出现算力军备竞赛
2)transformer结构将会一统强化学习的江湖
3)rewards函数升级将会是强化学习的重点攻克方向
4)多智能体领域的突破是实现通用人工智能的前夜
*— **1*** *—*
深度强化学习注定出现算力军备竞赛
强化学习有一个基础要求,就是训练的次数要足够多,
1亿次训练肯定比1万次训练学到的东西要多,
这就要求同时开展分布式计算,
才有可能在短短几天之内从开发部署到完成训练调优。
分布式计算的好处即便是不用显卡,仅仅多核cpu,效果也很好。
在多智能体学习中,分布式计算意味着上亿次的比赛,成为可能。
在离线学习比赛中,分布式计算意味着大数据可以进入到强化学习领域。
我们可以设计更加复杂的观察空间和动作空间。
以我最近参加的离线强化学习比赛来说,
上层是南栖仙策这家公司编写的框架
底层就是Ray这个分布式计算框架。
这方面可以参考rllib这个框架的实现。
但是这也带来两个问题:
第一,许多旧的框架需要升级
市面上很多框架,都在积极地做这方面改造,
但是在易用性上还是要加强改造。
我认为下一步趋势是更加模块化,标准化。
即框架只需要定义网络结构和一些基础参数,方便开发者快速实现自己想要的网络结构。
第二,深度强化学习对小公司并不友好
谷歌当初训练阿尔法狗,用了50个TPU。
以一小时6.5美元计算,如果训练一个模型,一天需要8125美元。
即便是按新的模型只用4个TPU,一天也需要624美元。
这个费用不是一般公司和个人可以承受得起的。
如果想要训练一个震惊世界的东西,那一定要付出惊人的成本。
*— **2*** *—*
transformer结构将会一统强化学习的江湖
我经过一段时间的观察,发现两个现象
1)简单的mlp和cnn效果已经达到极限,越来越多的人开始尝试新的神经网络结构
2)多项实践已经证明transformer结构可以有效提升模型效果
在多智能体学习领域,以NeurlPS2021的nmmo比赛环境来说,提供的baseline就是使用了transformer。
在离线强化学习,decision transformer这篇文章也证明使用transformer可以有效提高模型效果。
3)transformer网络在nlp领域和计算机视觉领域的发展迅速,让多种神经网络模型有统一的可能性
试想一下,一个网络结构可以同时满足离线学习和多智能体学习,这种东西迟早会出现。
*— **3*** *—*
rewards函数升级将会是强化学习的重点攻克方向
目前的算法领域,rewards函数设计非常重要。
但是在未来,可变的,能够自我归因求解的奖励函数将会是未来。
在这里主要的解决思路是两种:
1)可解释的奖励函数:
设计一个可变的,能够自我归因求解的奖励函数,这种奖励函数是向着可解释的方向实现的。这样的好处是可以调参的的思路放进来,tune一切。
2)放弃奖励函数的可解释性
用transformer的方式,将actiton,state转换成一种上下文的对照关系,以把大量训练数据当成语义模型去处理,放弃一个有形的奖励函数。
到底两种之间哪一种比较好,我目前并没有结论,但是大家可以试着去尝试下,毕竟我们搞的是强化学习,要拿模型效果效果说话。
— 4 —
多智能体领域的突破将会是通用人工智能的前夜
通用人工智能的实现就在眼前,前途是一片光明的,
但是要实现这个,还有两点困难:
第一,AI要在多任务领域全面超越人类
谷歌的阿尔法狗证明了在单个任务上算法可以全面超越人类智能,
但是多个任务上,算法的能力并没有显示出来。
这就好比一个学生能够单科考第一,但是别的学科全是不及格。
最近IJCAI2022在搞比赛,基本都是集中在多智能体领域。
比赛的内容是训练一个可以同时在摔跤、相扑、足球、冰球等领域超越对手的智能体模型。这个领域难度极大,很多时候,我们训练出来的模型,是不能超越脚本模型和经验规则模型的。
没有办法证明深度强化学习比人类强,就没法实现通用人工智能。
第二,尽量用单个大模型统一解决问题
一个模型可以在摔跤相扑足球冰球台球等等一系列比赛中胜出,这件事在未来是不敢想象的,但是随着算力和模型结构的升级,正在逐步变为现实。但是要将这些能力用一个模型融合在一起实现,难度又提升了一个等级。只有单个模型才能在标准化和通用性上实现最佳的效果。
— 结语 —
深度强化学习肯定是前途光明的,但是梦想和现实之间需要付出辛勤的汗水和天才的灵感。