该论文提出了一种新颖的自我监督、双层优化学习框架(imperative MTSP),通过强制性学习将多旅行商问题(MTSP)分解为多个单旅行商问题(TSP),并使用控制变量梯度估计算法克服了梯度方差问题。实验证明该方法在大规模问题下比先进的强化学习基线收敛更快,并找到比Google OR-Tools MTSP求解器短80%的最优旅行路径。
完成下面两步后,将自动完成登录并继续当前操作。