小红花·文摘

$GraspVLA——在互联网数据和十亿级规模合成动作数据SynGrasp-1B上预训练的抓取基础模型：基于渐进式动作生成PAG技术$

GraspVLA——在互联网数据和十亿级规模合成动作数据SynGrasp-1B上预训练的抓取基础模型：基于渐进式动作生成PAG技术

结构之法算法之道 ·

本研究提出CLIP-Refine方法，旨在解决现代视觉语言模型中图像与文本特征的模态差距问题。通过在小型数据集上训练，实现特征空间对齐，提升零样本性能。实验结果表明，CLIP-Refine有效减轻了模态差距。

视觉语言基础模型中的后预训练用于模态对齐

BriefGPT - AI 论文速递 ·

本研究提出了一种新颖的视觉-语言-动作架构OPAL，解决了机器人控制中的因果理解缺失问题。实验结果表明，OPAL在复杂操作任务上优于传统方法，显著提升了零样本性能，并减少了42%的推理计算需求。

OPAL: Causal Understanding Encoding of Physical Systems for Robot Learning

BriefGPT - AI 论文速递 ·

本研究提出AquaticCLIP，一种新型的对比语言-图像预训练模型，旨在解决水下场景理解中的人工标注不足问题。该模型通过构建200万对水下图像-文本配对数据集，显著提升了水下计算机视觉任务的零样本性能，为水下环境的视觉-语言应用设定了新基准。

AquaticCLIP: A Vision-Language Foundation Model for Underwater Scene Analysis

BriefGPT - AI 论文速递 ·

本文探讨了预训练视觉语言模型在医学图像中的知识传递，强调医学提示语设计的重要性。使用共享表达属性提示可提升模型的泛化能力和新对象识别。三种自动生成医学提示的方法有效注入专家知识，实验结果表明，精心设计的提示显著提高了零样本性能，微调模型优于监督模型。

高效参数微调的医学多模态大语言模型用于医学视觉定位

BriefGPT - AI 论文速递 ·

本研究探讨了GPT-4V在时尚美学评估中的零样本性能，结果显示其预测与人类判断一致，但在相似颜色服饰的排名上存在困难，为机器学习在时尚领域的应用提供了新见解。

Empirical Analysis of GPT-4V in Fashion Aesthetic Evaluation

BriefGPT - AI 论文速递 ·

本研究提出利用大型视觉语言模型（LVLMs）提升视频监控系统的动作识别能力。实验结果显示，改进的自反采样方法在UCF-Crime数据集上显著提高了VideoLLaMA2的零样本性能，展现出广泛的应用潜力。

监控视频中的零样本动作识别

BriefGPT - AI 论文速递 ·

本研究解决了数据集和预训练模型中的偏见问题。通过分析线性探针的权重更新，提出的概念漂移方法揭示了隐藏的偏见，并精准定位不必要的相关性。研究表明，该方法在偏见增强提示下显著提升了零样本性能，具有广泛的应用潜力。

概念漂移：通过基础模型的视角揭示偏见

BriefGPT - AI 论文速递 ·

通过研究预训练视觉语言模型在医学图像领域的知识传递能力，发现合理设计的医学提示语可以改进泛化能力，提高零样本性能。通过自动化生成医学提示的三种方法，可以注入专家级的医学知识和图像特定信息，进行信息定位。试验表明，巧妙设计的医学提示显著提高了零样本性能，且超过了受监督的模型。

医学影像语言模型中的视觉提示工程研究

BriefGPT - AI 论文速递 ·

本文提出了一种新的跨语言概括和翻译流程，利用公共资源进行单语概括和翻译，实现了零样本性能。实验证明该方法在两个跨语言概括数据集上表现显著，少样本微调下优于基准模型。

跨语言对话语音摘要与大型语言模型

BriefGPT - AI 论文速递 ·

大型多模态模型在广泛的视觉语言基准测试中表现出色，但在需要对底层视觉细节进行精确感知的任务中，常常遇到困难。为了解决这个问题，提出了一种名为VDLM的模型，它在二维矢量图形领域进行基于文本的推理。VDLM使用可伸缩矢量图形（SVG）进行精确的视觉描述，并通过预先训练的语言模型建立SVG和PVD之间的桥梁。VDLM具有更强的零样本性能，适用于各种基于二维矢量图形的低级多模态感知和推理任务。

基于文本的矢量图形推理

BriefGPT - AI 论文速递 ·

该论文提出了一种基于TV-TREES的多模态蕴涵树生成器，用于解决电视剪辑等复杂多模态内容上的问答问题。实验证实了该方法在全视频剪辑上的零样本性能，在黑盒方法上取得了最先进的可解释性和性能的最佳结合。

TV-TREES: 多模态蕴涵树用于神经符号化视频推理

BriefGPT - AI 论文速递 ·

本研究将SAM与开放词汇目标检测器集成，引入了SideFormer和Open-set RPN等创新方法，提升了SAM在检测任意对象和开放词汇识别方面的性能。Sambor在基准测试中表现出卓越的零样本性能，与之前的最先进方法竞争力十足，为SAM的识别多样化对象类别和促进视觉基础模型的开放词汇学习提供了有意义的努力。

基于目标检测器和经适应的 SAR 图像分割模型的组成式油污检测

BriefGPT - AI 论文速递 ·

研究发现，合理设计的医学提示语是调用预训练模型知识的关键，通过使用共享的表达属性提示，可以改进泛化能力，优化对新对象的识别。通过自动化生成医学提示的三种方法，可以注入专家级的医学知识和图像特定信息，提高零样本性能。微调模型超过了受监督的模型。

UniDCP: 通过动态的跨模态可学习提示统一多个医学视觉语言任务

BriefGPT - AI 论文速递 ·