最近的研究探索了强化学习作为序列建模问题的框架,然后使用变形金刚生成有效的解决方案。在本研究中,我们介绍了MCTrasnformer,这是一个将蒙特卡罗树搜索(MCTS)与变压器相结合的框架。我们的方法使用actor-critic设置,其中MCTS组件负责在Transformer输入的帮助下导航先前探索的状态。Transformer控制新状态的探索和评估,实现对各种策略的有效评估。除了开发高效策略之外,与现有的基于MCTS的解决方案相比,我们的设置还能够使用更高效的采样。因此,MCTrasnformer能够有效地从每个新探索的节点的少量模拟中学习,而不会降低性能。对SameGame的挑战性和众所周知的问题进行的评估表明,MCTrasnformer的解决方案仅比Transformer和MCTS的解决方案高出三倍以上。


最近的研究表明,变形金刚在强化学习领域非常有效(RL)Chen等人(2021);Janner等人(2021)。这是通过将离线RL转换为分类问题来实现的,这有助于使用Transformers实现高级序列建模能力。在评估时,Transformer作为一个自回归模型,生成未来行动的序列。上述方法的主要缺点是在线评估期间缺乏探索。因此,变压器模型在适应新环境的能力方面受到限制。尽管Zheng等人最近提出了模型的在线微调。(2022a),但它需要相对大量的训练样本。此外,一次性微调方法不适用于需要持续探索的高度波动性问题。我们介绍了MCTrasnformer,这是一个RL框架,能够以成本效益探索规划问题。我们的方法将蒙特卡罗树搜索(MCTS)和Transformer架构结合在演员-评论家设置中。MCTrasnformer的MCTS组件的任务是平衡大多数RL任务中所需的勘探/开发权衡,而Transformer组件的任务则是预测先前未勘探节点的效用。此外,我们使用Transformer来执行MCTS的模拟阶段(即,推出策略),前者的高级和有效建模允许我们使用少量不同的模拟,从而保持我们的方法的效率。我们在SameGame上评估了所提出的方法,这是一个具有挑战性和众所周知的问题。由于初始状态的高度变化,该游戏被认为具有挑战性。游戏板是随机初始化的,这迫使任何求解器从第一步开始执行大量探索。另一个给规划过程增加复杂性的因素是,只有在董事会完全通过后,才能获得高额奖金。正确评估是否可以清除董事会的能力对规划师的行为有重大影响。我们的评估表明,在基于预算的设置中,MCTrasnformer显著优于性能最佳的方法。