研究发现预训练的多模态视频变换器模型可以增强语言处理的预测性能,但未找到与大脑相关的信息。使用需要视觉-语言推理的任务可以改善预训练联合表示的脑对齐效果,但可能需要新方法来改善多模态变换器在集成视觉和语言方面的能力。
完成下面两步后,将自动完成登录并继续当前操作。