Translatotron-V (ison): 图像内机器翻译的端到端模型
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
本文提出了一种新型的端对端文本图像翻译模型,利用OCR和MT数据集的知识,建立了一种新颖的模态适配器,通过端到端TIMT损失和跨模态对比损失对齐OCR和MT任务的特征分布。实验证明,该方法比现有的两阶段级联模型和一阶段端对端模型更轻、更快,且具有泛化性。
🎯
关键要点
- 提出了一种新型的端对端文本图像翻译模型。
- 利用现有的OCR和MT数据集的知识。
- 建立了一种新颖的模态适配器,连接OCR编码器和MT解码器。
- 联合使用端到端TIMT损失和跨模态对比损失对齐特征分布。
- 实验表明该方法比现有的两阶段级联模型和一阶段端对端模型更轻、更快。
- 消融研究验证了方法的泛化性。
🏷️
标签
➡️