小红花·文摘

基于文本条件的JEPA用于学习语义丰富的视觉表示

Apple Machine Learning Research ·

本研究提出了一种新颖的动作时间连贯性学习方法（AcTOL），旨在解决视觉-语言预训练中因过度关注未来帧导致的关联错误。该方法通过语义对比学习视频帧的自然顺序，显著提升了下游操作任务的性能，并增强了对不同语言风格指令的鲁棒性，推动了具身智能体的发展。

Provable Ordering and Continuity in Vision-Language Pretraining for Generalizable Embodied Agents

BriefGPT - AI 论文速递 ·

本文介绍了多层语义对齐的视觉语言预训练方法（MVPTR），强调多模态学习的协同作用。提出了X$^2$-VLM模型，优化了图像文本和视频文本任务的性能，并提出了MMStar基准以评估视觉语言模型的多模态能力，解决了数据泄漏问题。通过SIMA框架和X-VILA模型，提升了视觉与语言的对齐性和跨模态理解能力。

通过模态集成率解码大型视觉语言模型中的跨模态对齐

BriefGPT - AI 论文速递 ·

COSMO是解决视觉语言预训练中虚假负样本问题的方法，通过处理虚假负样本和采用GRIT策略转换为正样本。实验证明COSMO在多个下游任务上有效，重要性超过解决虚假正样本的重要性。与BLIP-family模型兼容。

FFF: 修正有缺陷的基础对比预训练会得到非常强大的视觉 - 语言模型

BriefGPT - AI 论文速递 ·

DeViDe是一种基于Transformer的新方法，用于胸片X光的视觉语言预训练，利用放射照片描述和开放网络中的通用视觉特征，提供了对医学知识的整体快照。在零样本设置下，DeViDe在外部数据集上表现出与全监督模型相当的性能，并在三个大规模数据集上达到了最先进的结果。此外，DeViDe在下游任务和分割任务上也展示了优越的性能。

DeViDe：基于分面的医学知识，以提升医学视觉 - 语言预训练

BriefGPT - AI 论文速递 ·

利用多模态信息的视觉语言预训练（VLP）在自然领域的视觉识别和胸部 X 射线（CXR）的医学影像诊断方面取得了重大成功。UniChest是一个征服与分割的预训练框架，旨在充分利用多个源 CXRs 的协作优势，同时减少源异质性的负面影响。

UniChest: 多源胸部 X 射线分级的征服和分割预训练

BriefGPT - AI 论文速递 ·