我是首先阅读了Sutton的《强化学习》作为入门,之后又阅读了肖智清的《强化学习原理与Python实现》,里面有DDPG、TD3、PPO、TRPO等经典算法的代码,自己撸一遍收获颇多,我现在的项目代码风格也是借鉴了这本书。不过里面的算法测试均是基于Gym环境,在应用到自己的项目上时,显然环境部分就需要自己去设计了,尤其是Reward的设计,十分关键。
深度学习部分我主要是看了《Python深度学习》和复旦大学邱锡鹏老师的《神经网络与深度学习》,前者注重实践,后者重理论。
以上都是基础,在此之上再去看论文、搭建自己的项目就会更加从容。