作为强化学习从业人员,务实谈谈目前的现状(2021.3.11):
一、工作现状:
- 所有大厂几乎都会招强化学习的人才,不管是用在游戏上还是其他决策问题(推荐,广告,定价,自动驾驶。。),相比cv,目前的岗位会少一些,但是论卷的程度,cv比rl卷。所以总的来说目前不用太担心,至少比起cv领域还是容易不少(cv领域一些大厂实习已经需要顶会paper才有机会面试了)
- 几乎所有的大型游戏公司都会考虑使用强化学习。强化学习在游戏上能产生的价值已经在腾讯王者荣耀上得到了体现。对于类似的有大量用户的竞技游戏,强化学习的引入可以产生额外收益。这是大厂及初创公司的机会。初创公司需要熬到能自主研发出围绕AI的爆款游戏,否则只作为游戏AI服务商存在,能否产生巨大收益还是个问号。而这一块的技术门槛会像cv一样越来越低,要记住alphastar和openai dota five也已经是一两年前的成果了,而这一两年来强化学习用在游戏AI上几乎没有任何改变,依然需要大量的engineering。
二、技术现状:
- 依然是学术热门,当然同时也说明落地还是难,为什么难其他回答已经提到,这里不细说。这几乎是共识。
- 目前的落地明显偏向大公司。上面提到的游戏,推荐,广告,定价。。,任何一个其实都依托于成熟的产品,是在成熟的产品上去创造额外价值。这里举个类似的例子:GAN是不是不容易落地?但是GAN落地最成功的就在抖音上。几个基于GAN的特效可以产生几十亿的播放量,背后不知道产生多少收益。这很神奇。所以永远记住:Success cannot be planned。也许强化学习会在哪个目前还没注意到的领域得到更大的应用。
- 目前在机器人学习的落地也依然非常困难,使用cv+传统控制的方法更为有效。
- 相比米国,国内对强化学习的落地热情看起来更高,至少目前在美国没看到类似启元超参数的公司。
三、价值:
我们肯定不仅仅是想用一下强化学习,而是希望利用强化学习产生前所未有的价值。理论上,强化学习可以应用到任意决策问题上,或者任意用传统技术做决策做不好的地方。我最看好的依然是机器人上的应用,去实现完全的工业智能化,走进家用,形成一个独立的产品而存在。但任重道远,也许需要10年甚至20年的时间才能真正落地。这一块可以对比一下自动驾驶领域,自动驾驶实现的是车的智能化,并且如果实现高级别的自动驾驶,等价于司机,那么它的价值就变得很大,你买了一份自动驾驶程序,就等于买了一个司机。显然,机器人需要能够实现人的等价替代性才能真正产生价值。比如工厂里代替人去做包裹分拣。为什么强化学习首先在游戏上落地呢?因为利用强化学习训练的AI替代了玩家。也许比起考虑强化学习是否被广泛应用,不如考虑不管什么技术,能否替代某些人类劳动来的实在。补充:虽然这个问题是谈应用的,但是我们仍然应该谈谈落地应用之外的东西,也就是推动AGI的边界。这种可能赚不了几个钱,甚至巨烧钱,但是却是真正推动人类的技术进步!所以,其实我们更呼唤的是国内能否出现下一个deepmind?下一个openai?就不考虑落地赚钱,而仅考虑如何去给整个人类社会带来革命性的技术突破?如果给你一个选择去落地还是去探索未知,你会如何选择?这个命题或许只能靠目前国内的几家互联网巨头来回答了。