Translatotron-V (ison): 图像内机器翻译的端到端模型

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

本文提出了一种新型的端对端文本图像翻译模型,利用OCR和MT数据集的知识,建立了一种新颖的模态适配器,通过端到端TIMT损失和跨模态对比损失对齐OCR和MT任务的特征分布。实验证明,该方法比现有的两阶段级联模型和一阶段端对端模型更轻、更快,且具有泛化性。

🎯

关键要点

  • 提出了一种新型的端对端文本图像翻译模型。
  • 利用现有的OCR和MT数据集的知识。
  • 建立了一种新颖的模态适配器,连接OCR编码器和MT解码器。
  • 联合使用端到端TIMT损失和跨模态对比损失对齐特征分布。
  • 实验表明该方法比现有的两阶段级联模型和一阶段端对端模型更轻、更快。
  • 消融研究验证了方法的泛化性。
🏷️

标签

➡️

继续阅读