本文探讨了多模态视频变换器模型在视觉和语言处理中的应用,发现视觉信息能够增强语言处理的预测性能。研究表明,该模型在视觉-语言推理任务中表现出更好的脑对齐效果,强调了多模态模型整合视觉与语言的潜力,同时指出改善脑对齐需要新的方法。
研究发现预训练的多模态视频变换器模型可以增强语言处理的预测性能,但未找到与大脑相关的信息。使用需要视觉-语言推理的任务可以改善预训练联合表示的脑对齐效果,但可能需要新方法来改善多模态变换器在集成视觉和语言方面的能力。
完成下面两步后,将自动完成登录并继续当前操作。