通过视觉问答对将探测信号融入多模态机器翻译
💡
原文中文,约400字,阅读约需1分钟。
📝
内容提要
本文提出了一种新的方法来生成并行的视觉问答(VQA)风格对,以促进更强大的跨模态交互。使用大型语言模型(LLMs),将多模式机器翻译(MMT)中的探测信号显式建模为 VQA 风格数据,创建了 Multi30K-VQA 数据集,并引入了 MMT-VQA 多任务学习框架,将来自数据集的显式探测信号纳入 MMT 训练过程。在两个广泛使用的基准测试中验证了该新方法的有效性。
🎯
关键要点
- 本文提出了一种新的方法来生成并行的视觉问答(VQA)风格对。
- 研究探讨了多模式机器翻译(MMT)系统在源文本完整时对视觉信息的敏感性降低的现象。
- 使用大型语言模型(LLMs)将MMT中的探测信号显式建模为VQA风格数据。
- 创建了Multi30K-VQA数据集,并引入了MMT-VQA多任务学习框架。
- 将来自数据集的显式探测信号纳入MMT训练过程。
- 在两个广泛使用的基准测试中验证了该新方法的有效性。
- 本文提供的代码和数据可在https://github.com/libeineu/MMT-VQA获取。
➡️