研究生阶段在做强化学习相关的课题,但周围真正懂的人不多,入门阶段就很艰难,所以自己也感觉对于强化学习基础感觉掌握的不牢固,并且许多基础算法类似于Sarsa、Q-learning、REINFORCE等像是在盲目地记忆公式,却不了解背后地理论依据(为什么能起作用),但很惊喜地发现这本书部分章节的扩展材料有讲解收敛性证明,这是我一直想要了解的(感觉这方面中文相关的材料较少,英文材料较多又不知道该怎么抓住核心),所以感觉这本书在系统性介绍算法的同时又能满足不少人对这些“细枝末节”的求知欲,某种程度上可以说是“完美”。
同时也惊喜地发现这本书这本书有系统介绍TRPO、PPO、DDPG、SAC等经典DRL算法,这些算法自己看过相关论文,但由于水平有限加上没有动手实践过,一整遍看下来有种似懂非懂的感觉,在网上找的参考资料不少是对论文的翻译,印像深刻的是TRPO算法不少网上材料对论文中提到的共轭梯度、线性搜索等都是一笔带过(感觉对优化算法有了解的人来说不太友好),而且论文附录中Computing the Fisher-Vector Product部分自己到现在都没还能完全理解如何高效计算Fisher信息矩阵和某一向量的乘积。但同样从本书的目录中很惊喜地看到了相关部分地讲解,并且还是独立的一小节,所以从目前自身的感受来说这本书对DRL算法的介绍非常的有体系,对于背景薄弱的人或者说想自学强化学习等相关算法的人来说很友好。
总的来说,对这本书有非常高的期待!