3AM: 一个模糊感知的多模式机器翻译数据集
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
本研究提出了一种新的方法来生成并行的视觉问答风格对,以促进跨模态交互。使用大型语言模型将探测信号显式建模为VQA风格数据,并在两个基准测试中验证了该方法的有效性。
🎯
关键要点
- 本研究探讨了多模式机器翻译(MMT)系统在源文本完整时对视觉信息的敏感性降低的现象。
- 提出了一种新的方法来生成并行的视觉问答(VQA)风格对,以促进跨模态交互。
- 使用大型语言模型(LLMs)将MMT中的探测信号显式建模为VQA风格数据。
- 创建了Multi30K-VQA数据集,并引入了MMT-VQA多任务学习框架。
- 在两个广泛使用的基准测试中验证了该新方法的有效性。
- 提供的代码和数据可在 https://github.com/libeineu/MMT-VQA 获取。
➡️