小红花·文摘 - 小红花技术领袖俱乐部

本研究提出了一种新算法，通过动态重加权训练样本，改善多模态奖励模型（MM-RMs）在处理分布外数据时的泛化能力，从而提升其对多模态理解的能力和下游任务性能。

The Devil Is in the Details: Addressing Unimodal Spurious Correlations for Generalizable Multimodal Reward Models

BriefGPT - AI 论文速递 ·

本文提出了一种基于全局和局部信息的定位框架，利用全局损失和动态重加权机制来解决学习困难。实验表明，该方法在图像-文本和音频-文本检索任务中优于以往技术。此外，研究了人脸与声音的关联，提出了音视频语音识别的新技术，展示了跨模态融合在说话人验证中的潜力。

对齐之后融合：通过多模态编码器来提高人脸 - 声音相关性学习

BriefGPT - AI 论文速递 ·