MCTRANSFORMER：结合树搜索进行离线强化学习

RL-Theory

最近的研究探索了强化学习作为序列建模问题的框架，然后使用变形金刚生成有效的解决方案。在本研究中，我们介绍了MCTrasnformer，这是一个将蒙特卡罗树搜索（MCTS）与变压器相结合的框架。我们的方法使用actor-critic设置，其中MCTS组件负责在Transformer输入的帮助下导航先前探索的状态。Transformer控制新状态的探索和评估，实现对各种策略的有效评估。除了开发高效策略之外，与现有的基于MCTS的解决方案相比，我们的设置还能够使用更高效的采样。因此，MCTrasnformer能够有效地从每个新探索的节点的少量模拟中学习，而不会降低性能。对SameGame的挑战性和众所周知的问题进行的评估表明，MCTrasnformer的解决方案仅比Transformer和MCTS的解决方案高出三倍以上。

https://openreview.net/forum?id=-94tJCOo7OM

最近的研究表明，变形金刚在强化学习领域非常有效（RL）Chen等人（2021）；Janner等人（2021）。这是通过将离线RL转换为分类问题来实现的，这有助于使用Transformers实现高级序列建模能力。在评估时，Transformer作为一个自回归模型，生成未来行动的序列。上述方法的主要缺点是在线评估期间缺乏探索。因此，变压器模型在适应新环境的能力方面受到限制。尽管Zheng等人最近提出了模型的在线微调。（2022a），但它需要相对大量的训练样本。此外，一次性微调方法不适用于需要持续探索的高度波动性问题。我们介绍了MCTrasnformer，这是一个RL框架，能够以成本效益探索规划问题。我们的方法将蒙特卡罗树搜索（MCTS）和Transformer架构结合在演员-评论家设置中。MCTrasnformer的MCTS组件的任务是平衡大多数RL任务中所需的勘探/开发权衡，而Transformer组件的任务则是预测先前未勘探节点的效用。此外，我们使用Transformer来执行MCTS的模拟阶段（即，推出策略），前者的高级和有效建模允许我们使用少量不同的模拟，从而保持我们的方法的效率。我们在SameGame上评估了所提出的方法，这是一个具有挑战性和众所周知的问题。由于初始状态的高度变化，该游戏被认为具有挑战性。游戏板是随机初始化的，这迫使任何求解器从第一步开始执行大量探索。另一个给规划过程增加复杂性的因素是，只有在董事会完全通过后，才能获得高额奖金。正确评估是否可以清除董事会的能力对规划师的行为有重大影响。我们的评估表明，在基于预算的设置中，MCTrasnformer显著优于性能最佳的方法。

Document