视频辅助多模态机器翻译
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
本文介绍了一种新的方法来生成并行的视觉问答(VQA)风格对,使用大型语言模型(LLMs)将多模式机器翻译(MMT)中的探测信号显式建模为VQA风格数据,创建了Multi30K-VQA数据集,并引入了MMT-VQA多任务学习框架,验证了该新方法的有效性。
🎯
关键要点
- 研究探讨了多模式机器翻译(MMT)系统在源文本完整时对视觉信息的敏感性降低现象。
- 提出了一种新的方法生成并行的视觉问答(VQA)风格对,以促进跨模态交互。
- 使用大型语言模型(LLMs)将MMT中的探测信号显式建模为VQA风格数据。
- 创建了Multi30K-VQA数据集,并引入了MMT-VQA多任务学习框架。
- 将来自数据集的显式探测信号纳入MMT训练过程。
- 在两个广泛使用的基准测试中验证了新方法的有效性。
- 提供的代码和数据可在https://github.com/libeineu/MMT-VQA获取。
➡️