该系列包括 13 个讲座,涵盖了顺序决策问题中的强化学习和规划的基础知识,然后进入更高级的主题和现代深度强化学习算法。 详细介绍了各种主题,包括马尔可夫决策过程、基于样本的学习算法(例如Q-learning、SARSA)、深度强化学习等。 它还探讨了更高级的主题,如离策略学习、多步更新和资格跟踪,以及实施深度强化学习算法(如 Rainbow DQN)的概念和实践考虑。
内容来源: https://deepmind.com/
PonyShan : https://space.bilibili.com/598613041/channel/detail?cid=201410
部分学习视频如下: