小红花·文摘

该论文提出了一种新颖的自我监督、双层优化学习框架（imperative MTSP），通过强制性学习将多旅行商问题（MTSP）分解为多个单旅行商问题（TSP），并使用控制变量梯度估计算法克服了梯度方差问题。实验证明该方法在大规模问题下比先进的强化学习基线收敛更快，并找到比Google OR-Tools MTSP求解器短80%的最优旅行路径。