小红花·文摘

EMBridge：通过跨模态表示学习提升肌电信号的手势泛化能力

Apple Machine Learning Research ·

本文介绍了一种基于语言描述的视频目标分割方法，利用扩展的语言基础模型实现时空连续预测。研究表明，该方法在多个数据集上优于传统技术，特别是在动态对象捕捉和跨模态学习方面。新提出的模型OnlineRefer和VD-IT在准确性和效率上均优于现有方法，推动了视频理解任务的发展。

全面参照：迈向我们在视频中能描述的所有事物的分割

BriefGPT - AI 论文速递 ·

本文提出了一种名为MAD的方法，通过自适应蒸馏提升跨模态学习性能，尤其在视觉问答领域表现优异。同时介绍了Muffin框架和UniMM-Chat数据集，展示了在多模态任务中的先进性能。通过融合目标检测和光学字符识别，改进了多模态大型语言模型的细粒度图像理解能力，取得了显著进展。

通过增强视觉能力来改善多模态大型语言模型

BriefGPT - AI 论文速递 ·

研究探讨了大型多模态模型在语言、视觉和音频中出现幻觉的问题，限制了实际应用。提出“多模态的诅咒”基准，分析原因，强调跨模态学习中平衡与缓解策略的重要性。通过对比学习等方法减少幻觉，提高性能，并提出评估和缓解策略，如CrossCheckGPT和Hallu-PI，旨在解决多模态模型中的幻觉问题。

多模态的诅咒：评估大型多模态模型在语言、视觉和音频中的幻觉

BriefGPT - AI 论文速递 ·

该研究提出了STAGE框架，通过增强边界框数据集，提高视频问答的准确性。研究涵盖自我中心视频问答、跨媒体对象的QA评估基准及新型数据增强框架，展示了多种模型在视频问答任务中的性能提升。通过高斯掩模优化和跨模态学习，改善了视频定位和问答效果，推动了VQA系统的可靠性。

长形式自我中心视频中的多跳视频问答的基础研究

BriefGPT - AI 论文速递 ·

该文介绍了Meta AI Research开发的Segment Anything Model（SAM）及其多种应用，研究了RefSAM、AI-SAM、CAT-SAM等模型，探索了跨模态学习、用户交互和优化机制，显著提升了图像分割的准确性和效率。

SAM-REF：重新思考图像与提示的协同作用以细化分割

BriefGPT - AI 论文速递 ·

本文介绍了多种跨模态学习方法，如MAD、MMA和Muffin框架，旨在提升视觉与语言模型的性能。这些方法在视觉语言任务中表现出色，尤其在指称理解和多模态对话中具有竞争力。研究者们通过新数据集和模型架构探索多模态能力的有效整合，但仍面临数据集多样性和响应真实性的挑战。

跨模态适配器：高效的多模态大型语言模型

BriefGPT - AI 论文速递 ·

本文介绍了多模态蒙特卡洛自动编码器（MultiMAE-DER），该模型用于动态情感识别，并优化了多模态输入序列的融合策略，显著提升了模型性能。与现有模型相比，MultiMAE-DER在多个数据集上的召回率有所提高，展示了其在跨模态学习中的有效性。

MU-MAE：基于多模态蒙版自编码器的一次性学习

BriefGPT - AI 论文速递 ·

本文研究了跨模态参数高效的图像到视频传递学习，提出了Spatio-Temporal Adapter，能够以较低成本实现动态视频内容的推理能力。XMAdapter通过视觉-语言双模态信息提升模型性能，实验结果表明其在准确性和效率上优于以往方法。此外，研究探讨了适配器在屏幕截图字幕任务中的应用，提出UniAdapter以实现跨模态自适应，显著减少可调参数并提升性能。

FE-Adapter：将基于图像的情感分类器适应于视频

BriefGPT - AI 论文速递 ·

本文提出了多种跨模态学习方法，包括自监督训练框架和多层次对齐方法，旨在提升文本与视频检索、行为识别等任务的性能。研究表明，这些新方法在多个数据集上优于现有技术，推动了医学机器学习和无监督匹配等领域的发展。

跨模态基于聚类的自标定方法用于多模态数据分类

BriefGPT - AI 论文速递 ·

本文提出了一种基于跨模态学习的深度伪造检测方法，通过融合音频和视觉特征，检测准确率和AUC分别达到98.6%和99.1%。该方法结合细粒度识别与二元分类，增强了在不同数据集上的检测能力，有效解决了模型的泛化问题，实现了对伪造视频段的准确识别。

具备统计意识的音频 - 视觉深度伪造检测器

BriefGPT - AI 论文速递 ·

本文介绍了一种新的元-混合网络，通过少量标记数据指导模型学习，提出了解缠模块和域分类器以缩小域差距。研究了跨域少样本学习，提出了多模态目标检测方法和基于CLIP的跨模态提示学习，并验证了其在多个数据集上的有效性和泛化能力。

探索基于频率感知的跨域少样本分类

BriefGPT - AI 论文速递 ·

本研究提出了一种基于音视频的深度伪造检测方法，结合细粒度识别与二元分类，提升检测能力。通过跨模态学习，采用两阶段方法，准确率达到98.6%。基于FakeAVCeleb数据集的实验表明，集成式检测优于单模态方法，有效应对深度伪造的安全隐患。

一种基于多流融合和单类学习的音视频深伪造检测方法

BriefGPT - AI 论文速递 ·

本文介绍了一种基于语义对齐的嵌入方法，结合多头注意力和特征聚合网络，实现了文本描述的行人图像搜索，并在多个数据集上取得最佳性能。研究提出了新的任务和框架，利用跨模态学习和生成检索方法，提升了图像与文本之间的匹配效率和准确性。

双向一对多嵌入对齐用于基于文本的人物检索

BriefGPT - AI 论文速递 ·

本文探讨了通过跨模态学习和深度神经网络提高人类活动识别（HAR）性能的方法。研究利用运动合成模型生成3D运动序列，并结合IMU数据进行训练，显著提升识别准确性。提出的IMUGPT扩展和多样性指标有效解决数据稀缺问题，优化虚拟IMU数据生成。实验表明，结合视频和IMU数据能更好地分类人体运动，展示了多模态学习的应用潜力。

通过语言、姿态和合成 IMU 的联合表示强化基于惯性手部人体动作识别

BriefGPT - AI 论文速递 ·

本文介绍了多种基于编码器-解码器结构的模型和方法，如FastCoT、YOCO和CoCa。这些方法通过优化解码过程、数据增强和跨模态学习，显著提升了模型在图像识别和自然语言处理任务中的性能和推理速度，实验结果显示效率和准确性均有显著改善。

只需缓存一次：用于语言模型的解码器 - 解码器架构

BriefGPT - AI 论文速递 ·

本研究提出了多种行人检测方法，包括基于对比学习的示例字典、深度学习架构、跨模态学习和多摄像头组合检测，旨在提高检测精度和效率，尤其在低光和人群密集情况下表现优异。实验结果表明，所提方法在多个数据集上取得了先进性能。

构建多功能行人知识库实现鲁棒性行人检测

BriefGPT - AI 论文速递 ·

本研究提出了一个交互式框架，通过编码领域相关概念和专家反馈，平衡自动化与手动编码。该框架有效生成抽象概念的图像，并将主题概念引入图像字幕生成中，提升跨模态学习效果。同时，研究探讨了样式迁移、视觉概念转换和对比学习等方法，显著改善了图像生成和语言理解的表现。

iCONTRA：通过交互式概念转移实现主题集设计

BriefGPT - AI 论文速递 ·

本文介绍了多种无监督领域自适应方法，旨在解决不同领域间的偏移问题，包括“SSDA3D”方法、数据导向领域适应框架和跨模态学习。这些方法在3D语义分割和激光雷达数据处理上取得了显著效果，减少了对标注数据的依赖，提升了模型性能。

CMDA：基于 LiDAR 的三维物体检测的跨模态和领域对抗适应

BriefGPT - AI 论文速递 ·

本研究探讨了视频问答中视觉语言模型（VLMs）的性能，发现VLMs在证实答案方面表现较弱。为解决此问题，提出了高斯掩模优化和跨模态学习的视频定位机制，实验证明其改善了视频定位和问答效果。

揭示 VQA 中视觉定位方法的全部潜力

BriefGPT - AI 论文速递 ·