在神经组合优化(CO)中,强化学习(RL)可以将深度神经网络转化为NP难问题的快速、强大的启发式求解器。这种方法在实际应用中具有很大的潜力,因为它允许在没有专家指导的情况下找到接近最优的解决方案,而专家指导需要掌握大量的领域知识。我们介绍了多优化策略优化(POMO),这是一种构建这种启发式求解器的端到端方法。POMO适用于广泛的CO问题。它旨在利用CO溶液表示中的对称性。POMO使用了一种改进的REINFORCE算法,该算法强制向所有最佳解决方案进行不同的部署。经验上,POMO的低方差基线使RL训练快速而稳定,与以前的方法相比,它更能抵抗局部极小值。我们还介绍了一种新的基于增强的推理方法,它很好地伴随着POMO。我们通过解决三个常见的NP难题,即旅行推销员(TSP)、容量限制车辆路径(CVRP)和0-1背包(KP),证明了POMO的有效性。对于这三种算法,我们基于POMO的求解器在性能上比所有最近学习的启发式算法都有了显著的改进。特别是,我们使用TSP100实现了0.14%的最优差距,同时将推理时间减少了一个数量级以上。

组合优化(CO)是物流、制造和分销供应链以及顺序资源分配中的一个重要问题。运筹学(OR)社区对该问题进行了广泛的研究,但现实世界的CO问题无处不在,每个问题都有其独特的约束条件。此外,这些限制往往随着工作环境的变化而迅速变化。设计一个强大而高效的算法,可以在各种条件下统一应用,即使不是不可能,也是很棘手的。因此,许多行业面临的CO问题通常都是通过手工制作的试探法来解决的,尽管这些试探法存在缺陷,但都是由当地专家设计的。在计算机视觉(CV)和自然语言处理(NLP)领域,基于专家手动特征工程的经典方法现在已被自动化的端到端深度学习算法所取代[1,2,3,4,5]。在监督学习方面取得了巨大进展,学习了从训练输入到标签的映射,使这一显著转变成为可能。不幸的是,监督学习在很大程度上不适合大多数CO问题,因为人们无法立即获得最佳标签。相反,我们应该利用分数来训练模型,这些分数对于大多数CO解决方案来说都很容易计算。强化学习范式非常适合组合优化问题。深度强化学习(RL)的最新方法很有前途[6],为抽象的NP难CO问题找到了接近最优的解决方案,如旅行推销员(TSP)[7,8,9,10,11,12]、容量限制车辆路径(CVRP)[10,11,13,14,15]和0-1背包(KP)[7]。我们通过引入多优化策略优化(POMO),为深度学习社区的这一团队努力做出贡献。POMO提供了一个简单直接的框架,可以自动生成一个像样的解算器。它可以应用于广泛的一般CO问题,因为它使用CO本身的对称性,可以在CO解的顺序表示中找到。


