小红花·文摘

Meta推出的SAM 3模型实现了通过语言提示在图像中识别和分割多个实例。该模型支持多模态提示，具备快速处理和高准确率，但对复杂语言的理解能力有限。

Meta「分割一切」3.0曝光！技能语义分割加入概念提示，好好玩，要爆了

量子位 ·

该研究提出了MMICL模型，旨在解决图像与文本的多模态提示问题，提升视觉-语言模型的性能。通过结合CLIP和DINO的特征，提出了COMM策略，增强了模型的视觉能力。实验结果表明，MMICL在复杂推理任务中表现优异，有效缓解了语言偏差问题，展现了在多模态基准测试中的竞争力。

预集成提示信息至视觉编码的多模态大语言模型框架

BriefGPT - AI 论文速递 ·

HOI Transformer是一种用于人-物交互检测的算法，通过全局图像上下文推断物体与人的关系，提升了HICO-DET和V-COCO数据集的性能。研究还提出了基于视觉-语言知识蒸馏的零样本人-物交互检测框架，利用CLIP模型实现更准确的检测。新开发的MP-HOI检测器通过多模态提示和大规模数据集优化HOI任务，展现出卓越的零样本能力和广泛应用潜力。

不再看不见：解锁CLIP在生成零-shot人机交互检测中的潜力

BriefGPT - AI 论文速递 ·

本文提出了一种针对医学图像的视觉问答模型LaPA，结合多模态提示生成和领域特定预训练策略，显著提高了在多个医学视觉问答数据集上的准确率，解决了数据集规模小和诊断性能不足的问题。实验结果表明，该模型在VQA-RAD、SLAKE和VQA-2019上超越了现有最先进模型。

医学视觉问答的定向视觉提示

BriefGPT - AI 论文速递 ·

本文探讨了大型语言模型（LLM）在自动驾驶中的应用，提出通过结合多模态提示和强化学习来提升自动驾驶性能。研究表明，LLM具备推理、解释和记忆能力，能够处理复杂驾驶场景，改善决策过程，增强安全性和效果。此外，LMDrive框架展示了与人类指令的有效互动，推动了基于语言的闭环自动驾驶研究。

以对象级别知识将世界划分为 Token，以解决自动驾驶中的长尾事件

BriefGPT - AI 论文速递 ·

本文介绍了一种基于潜在扩散模型的时尚图像生成方法，结合多模态提示（文本、姿势、服装草图），提升了生成图像的质量和一致性。研究提出了TD-GEM和MAGIC等创新框架，增强了服装编辑和图像字幕生成能力。通过改进控制条件和特征提取，CAT-DM网络实现了更真实的虚拟试衣效果，展示了在时尚设计领域的广泛应用潜力。

魔力服装：可控的服装驱动图像合成

BriefGPT - AI 论文速递 ·

该文介绍了一种名为MMICL的模型，用于解决图像与文本交叉多模态提示的问题。该模型能够适应用户真实应用中复杂的提示，包括多模态上下文与交叉的图像和文本、每个图像的文本参考以及具有空间、逻辑或时间关系的多图像数据。MMICL 取得了新的最先进的零样本和少样本性能，成功缓解了视觉-语言模型中的语言偏差问题。

视点整合和注册与视觉语言基础模型用于图像变化理解

BriefGPT - AI 论文速递 ·