本研究提出了一种新算法,通过动态重加权训练样本,改善多模态奖励模型(MM-RMs)在处理分布外数据时的泛化能力,从而提升其对多模态理解的能力和下游任务性能。
本文提出了一种基于全局和局部信息的定位框架,利用全局损失和动态重加权机制来解决学习困难。实验表明,该方法在图像-文本和音频-文本检索任务中优于以往技术。此外,研究了人脸与声音的关联,提出了音视频语音识别的新技术,展示了跨模态融合在说话人验证中的潜力。
完成下面两步后,将自动完成登录并继续当前操作。