基于模型的强化学习(MBRL)是迭代学习框架、reinforcement learning的一个变种,它包括系统的一个结构化组件,该组件被单独优化以模拟环境动力学。学习模型的动机广泛地来自生物学、最优控制等等——它是建立在人类在行动前计划的自然直觉基础上的。然而,这种直观的基础会导致更复杂的学习过程。在这篇文章中,作者讨论基于模型的强化学习如何更容易受到参数调整的影响,以及AutoML如何帮助找到性能良好的参数设置和时间表。
PDF链接:https://arxiv.org/pdf/2102.13651.pdf
有用