通过视觉问答对将探测信号融入多模态机器翻译
原文中文,约400字,阅读约需1分钟。发表于: 。本研究论文通过深入研究多模式机器翻译(MMT),探讨了 MMT 系统在源文本完整时对视觉信息的敏感性降低的现象,并提出了一种新的方法来生成并行的视觉问答(VQA)风格对,以促进更强大的跨模态交互。使用大型语言模型(LLMs),将 MMT 中的探测信号显式建模为 VQA 风格数据,创建了 Multi30K-VQA 数据集,并引入了 MMT-VQA...
本文提出了一种新的方法来生成并行的视觉问答(VQA)风格对,以促进更强大的跨模态交互。使用大型语言模型(LLMs),将多模式机器翻译(MMT)中的探测信号显式建模为 VQA 风格数据,创建了 Multi30K-VQA 数据集,并引入了 MMT-VQA 多任务学习框架,将来自数据集的显式探测信号纳入 MMT 训练过程。在两个广泛使用的基准测试中验证了该新方法的有效性。