最优运输正则化的连续时间变换器架构
📝
内容提要
本研究解决了变换器在训练过程中稳定性和泛化能力不足的问题。我们提出了一种基于动态系统的连续时间变换器架构,并利用最优运输理论来正则化训练过程,确保解的唯一性和规律性。实验结果表明,该方法在自然语言处理、图像分类和点云分类等任务中优于传统的离散变换器模型。
➡️
本研究解决了变换器在训练过程中稳定性和泛化能力不足的问题。我们提出了一种基于动态系统的连续时间变换器架构,并利用最优运输理论来正则化训练过程,确保解的唯一性和规律性。实验结果表明,该方法在自然语言处理、图像分类和点云分类等任务中优于传统的离散变换器模型。