本人刚学习强化学习的时候是从Richard Sutton的Reinforcement Learning: An Introduction着手的,但很快发现里面的知识太理论且深奥,并且跟当前主流的强化学习方法关联不大,知识很难由点串成线形成面,不成体系,零碎。于是中断阅读Introduction,转而从目前强化学习的其中一个研究领域——离线强化学习,开始阅读相关综述、需要解决的问题以及最新进展,由此铺开,逐渐形成体系知识。
学习强化学习,目前来看,能跟上研究潮流、易于理解学习的教材较少,此外,相比计算机视觉,自然语言处理,强化学习方面的论文能找到对应代码来进行学习的情况少之又少,因此为学习强化学习带来不少困难、困惑。因此迫切需要一本书能在讲明白基础数学理论的同时,还能用代码进行实现,例如在离策略评估方面(Off-policy evaluation),曾经我一度困惑不知如何计算连续动作的概率。
最后,看了本书的目录,我觉得今后还可以增加上离线强化学习和离策略评估等相关最新的研究,因为现实应用上,实时与真实环境交互来进行学习可能会带来严重后果,比如自动驾驶、推荐系统、医疗,因此从已经由人类专家采集好的离线数据中进行学习是很有必要的。而off-policy、实时与环境交互的在线学习算法直接用在离线情形下效果并不好。另外,还可以加入安全强化学习、约束强化学习这种更贴近实际应用场景的相关研究工作。