小红花·文摘

本文研究了多模式机器翻译（MMT）中视觉模态的贡献，提出通过视觉信息提升翻译质量的方法。介绍了Volta系统和VTNet等新技术，展示了它们在多模态翻译任务中的优越表现，并探讨了多模式大型语言模型（MLLMs）的架构和训练技术及其在视觉理解任务中的应用，为未来研究奠定基础。

跨语言视觉文本设计转移

BriefGPT - AI 论文速递 ·

本文研究了多模式机器翻译（MMT）模型在训练和评估时过拟合的问题，并提出了一种基于高效纯文本机器翻译（MT）模型的方法来解决。通过使用视觉 - 文本适配器层和门控机制，将MT模型逐步转换为MMT模型，并通过预训练和微调来提高性能。

为纯文本翻译模型添加多模态功能

BriefGPT - AI 论文速递 ·

本研究提出了一种新的方法来生成并行的视觉问答风格对，以促进跨模态交互。使用大型语言模型将探测信号显式建模为VQA风格数据，并在两个基准测试中验证了该方法的有效性。

Proximity QA：利用多模式大型语言模型进行空间接近性分析

BriefGPT - AI 论文速递 ·

本文介绍了一种新的方法来生成并行的视觉问答（VQA）风格对，使用大型语言模型（LLMs）将多模式机器翻译（MMT）中的探测信号显式建模为VQA风格数据，创建了Multi30K-VQA数据集，并引入了MMT-VQA多任务学习框架，验证了该新方法的有效性。

视频辅助多模态机器翻译

BriefGPT - AI 论文速递 ·

本文提出了一种新的方法来生成并行的视觉问答（VQA）风格对，以促进更强大的跨模态交互。使用大型语言模型（LLMs），将多模式机器翻译（MMT）中的探测信号显式建模为 VQA 风格数据，创建了 Multi30K-VQA 数据集，并引入了 MMT-VQA 多任务学习框架，将来自数据集的显式探测信号纳入 MMT 训练过程。在两个广泛使用的基准测试中验证了该新方法的有效性。

通过视觉问答对将探测信号融入多模态机器翻译

BriefGPT - AI 论文速递 ·