小红花·文摘

研究提出了一种双原型演变（DPE）方法，解决视觉语言模型在测试时无法有效积累任务特定知识的问题。DPE通过文本和视觉原型提升多模态表示的精准度，在15个基准数据集上表现优于现有方法，并提高了图像分类和文本检索任务的泛化能力和准确性。

双原型演变用于视觉语言模型的测试时泛化

BriefGPT - AI 论文速递 ·

本文提出了CLIP-benchmark，用于评估CLIP及其变种，分析数据、监督和模型架构对性能的影响。研究结合对比学习与自监督学习，生成多模态表示以提升模型性能。提出基于rank loss的策略，显著提高细粒度任务的表现。同时，通过生成挑战性负样本和新方法控制视觉语言模型，改善图像描述和推理能力。探索CLIP对虚假特征的依赖，提出组合对齐方法，以提升图像与文本的对应关系理解。

提升预训练视觉语言模型的多模态能力以改善视觉语言组合性

BriefGPT - AI 论文速递 ·

该论文提出了一种基于视频和音频数据的零样本学习方法，利用跨模态注意力学习多模态表示，并通过文本标签嵌入实现知识转移。实验结果显示，该方法在多个数据集上表现优异，超越了现有技术。

音视通用零样本学习简洁方法

BriefGPT - AI 论文速递 ·

本文探讨了混合密集与稀疏模型（DS-MoE）在训练和推理中的优势，显示其在参数效率和计算成本上优于传统稀疏模型。研究表明，混合专家模型在多语言生成和任务推广中表现出色，并提出了改进路由机制的策略以提升性能。未来研究将集中于优化混合专家模型的设计和多模态表示能力。

稀疏专家混合模型构建可靠的语言模型

BriefGPT - AI 论文速递 ·

CLIP（对比性语言-图像预训练）模型通过CLIP Surgery方法提升了解释性和性能，在多标签识别和语义分割任务中显著提高了准确率。研究还提出了将CLIP特征嵌入3D地图的方法，增强了对象导航系统的效率和成功率。此外，CPL方法和结构感知的Structure-CLIP模型进一步提升了多模态表示能力。

概念可视化：使用 WordNet 解释 CLIP 多模态嵌入

BriefGPT - AI 论文速递 ·

本文探讨了将触觉信息融入模仿学习平台，以提升机器人在复杂任务中的表现。研究表明，自我监督学习和多模态表示方法显著提高了机器人在视觉和触觉感知方面的性能，使其能够更有效地处理未结构化环境中的操作任务。实验验证了这些方法在模拟和实际机器人中的有效性。

听触：面向丰富接触操控的音频 - 视觉预训练

BriefGPT - AI 论文速递 ·

本文研究了transformers中的注意机制在视觉和语言任务中的应用，提出了自相关自注意力（CSA）和稀疏注意力机制等改进方法，以提高模型的可解释性和计算效率。这些方法在语义分割、文本推理和视觉跟踪等任务中显著提升了性能。SPARC方法通过细粒度多模态表示改善了图像和文本的匹配效果。

SPARO：用于视觉的稳健和组合式 Transformer 编码的选择性注意力

BriefGPT - AI 论文速递 ·

本研究利用预训练的转换器模型进行多语言情感分析，采用基于趋势和唤醒维度的方法，显著提高了情感分类的准确性。研究发现RoBERTa模型在不同数据特征下表现最佳，并探讨了多模态表示和深度学习技术在情感识别中的应用。

改进的文本情感预测通过结合价值和唤醒序列分类

BriefGPT - AI 论文速递 ·

过去十年，司机分心导致交通事故频发。本文介绍了辅助驾驶感知数据集AIDE，涵盖多视角监测、面部和姿势注释等特征，并提供实验基准和融合策略，探讨多模态表示的有效性。研究强调物体检测在自动驾驶中的重要性，分析现有技术的挑战与发展方向。

AIDE：用于自动驾驶中目标检测的自动数据引擎

BriefGPT - AI 论文速递 ·

本文介绍了一种基于多视角变换器的方法，以提高3D场景的多模态表示能力。通过引入新的数据集和评估指标，提出了多种3D视觉定位算法，如Multi3DRefer和TransRefer3D，这些算法在实验中表现优于现有技术，推动了3D视觉理解的发展。

MiKASA: 3D 视觉定位的多关键锚点和场景感知变换器

BriefGPT - AI 论文速递 ·

这项研究通过联合学习放射学图像的有效表示和多模态表示，创新性地增强了数据集，并取得了较高的准确度，推进了医学VQA的发展，并在诊断环境中开辟了实用应用的途径。

预训练视觉语言模型用于纵向胸部 X 射线的差异视觉问题回答

BriefGPT - AI 论文速递 ·

该研究探讨了医学领域中视觉问答的挑战，并通过联合学习放射学图像的有效表示和多模态表示，创新性地增强了数据集，取得了较高的准确度。该研究推进了医学VQA，并在诊断环境中开辟了实用应用的途径。

OmniMedVQA：医学 LVLM 的新大规模综合评估基准

BriefGPT - AI 论文速递 ·

本文介绍了一种使用无标签数据学习多模态表示的框架，利用无卷积的Transformer架构。通过训练Video-Audio-Text Transformer (VATT)并在多个任务中评估其性能，提取了丰富的多模态表示。VATT在视频动作识别、音频事件分类、图像分类和文本到视频检索等任务中表现出较高准确率。VATT的视觉Transformer在多个数据集上的最高准确率分别为82.1%、83.6%、72.7%和41.1%，将VATT迁移至图像分类任务时，ImageNet的最高准确率为78.7%。VATT的音频Transformer在AudioSet上实现了39.4%的mAP，并展现了模型的泛化能力。

双原型演变用于视觉语言模型的测试时泛化

提升预训练视觉语言模型的多模态能力以改善视觉语言组合性

音视通用零样本学习简洁方法

稀疏专家混合模型构建可靠的语言模型

概念可视化：使用 WordNet 解释 CLIP 多模态嵌入

听触：面向丰富接触操控的音频 - 视觉预训练

SPARO：用于视觉的稳健和组合式 Transformer 编码的选择性注意力

改进的文本情感预测通过结合价值和唤醒序列分类

AIDE：用于自动驾驶中目标检测的自动数据引擎

MiKASA: 3D 视觉定位的多关键锚点和场景感知变换器

预训练视觉语言模型用于纵向胸部 X 射线的差异视觉问题回答

OmniMedVQA：医学 LVLM 的新大规模综合评估基准

高效多尺度多模态瓶颈变压器用于音视频分类

基于图对比学习的双阶段多模态情感识别模型

RCA-NOC: 相对比对对齐用于新颖物体字幕生成

DeCUR: 多模态自监督中的公共和独特表达解耦

AdvCLIP：多模态对比学习中与下游无关的对抗样本