视频辅助多模态机器翻译
原文中文,约300字,阅读约需1分钟。发表于: 。通过引入 EVA 数据集和 SAFA 模型,使用视频信息进行歧义消除的多模式机器翻译 (MMT) 模型能够有效提高翻译性能。
本文介绍了一种新的方法来生成并行的视觉问答(VQA)风格对,使用大型语言模型(LLMs)将多模式机器翻译(MMT)中的探测信号显式建模为VQA风格数据,创建了Multi30K-VQA数据集,并引入了MMT-VQA多任务学习框架,验证了该新方法的有效性。
通过引入 EVA 数据集和 SAFA 模型,使用视频信息进行歧义消除的多模式机器翻译 (MMT) 模型能够有效提高翻译性能。
本文介绍了一种新的方法来生成并行的视觉问答(VQA)风格对,使用大型语言模型(LLMs)将多模式机器翻译(MMT)中的探测信号显式建模为VQA风格数据,创建了Multi30K-VQA数据集,并引入了MMT-VQA多任务学习框架,验证了该新方法的有效性。