GraspVLA是一种基于十亿级合成抓取数据集的机器人抓取模型,结合视觉语言模型和动作生成机制,提升了抓取技能的泛化能力。该模型通过渐进式动作生成方法,实现了仿真到现实的迁移,展现出优异的零样本性能。
本研究提出CLIP-Refine方法,旨在解决现代视觉语言模型中图像与文本特征的模态差距问题。通过在小型数据集上训练,实现特征空间对齐,提升零样本性能。实验结果表明,CLIP-Refine有效减轻了模态差距。
本研究提出了一种新颖的视觉-语言-动作架构OPAL,解决了机器人控制中的因果理解缺失问题。实验结果表明,OPAL在复杂操作任务上优于传统方法,显著提升了零样本性能,并减少了42%的推理计算需求。
本研究提出AquaticCLIP,一种新型的对比语言-图像预训练模型,旨在解决水下场景理解中的人工标注不足问题。该模型通过构建200万对水下图像-文本配对数据集,显著提升了水下计算机视觉任务的零样本性能,为水下环境的视觉-语言应用设定了新基准。
本文探讨了预训练视觉语言模型在医学图像中的知识传递,强调医学提示语设计的重要性。使用共享表达属性提示可提升模型的泛化能力和新对象识别。三种自动生成医学提示的方法有效注入专家知识,实验结果表明,精心设计的提示显著提高了零样本性能,微调模型优于监督模型。
本研究探讨了GPT-4V在时尚美学评估中的零样本性能,结果显示其预测与人类判断一致,但在相似颜色服饰的排名上存在困难,为机器学习在时尚领域的应用提供了新见解。
本研究提出利用大型视觉语言模型(LVLMs)提升视频监控系统的动作识别能力。实验结果显示,改进的自反采样方法在UCF-Crime数据集上显著提高了VideoLLaMA2的零样本性能,展现出广泛的应用潜力。
本研究解决了数据集和预训练模型中的偏见问题。通过分析线性探针的权重更新,提出的概念漂移方法揭示了隐藏的偏见,并精准定位不必要的相关性。研究表明,该方法在偏见增强提示下显著提升了零样本性能,具有广泛的应用潜力。
通过研究预训练视觉语言模型在医学图像领域的知识传递能力,发现合理设计的医学提示语可以改进泛化能力,提高零样本性能。通过自动化生成医学提示的三种方法,可以注入专家级的医学知识和图像特定信息,进行信息定位。试验表明,巧妙设计的医学提示显著提高了零样本性能,且超过了受监督的模型。
本文提出了一种新的跨语言概括和翻译流程,利用公共资源进行单语概括和翻译,实现了零样本性能。实验证明该方法在两个跨语言概括数据集上表现显著,少样本微调下优于基准模型。
大型多模态模型在广泛的视觉语言基准测试中表现出色,但在需要对底层视觉细节进行精确感知的任务中,常常遇到困难。为了解决这个问题,提出了一种名为VDLM的模型,它在二维矢量图形领域进行基于文本的推理。VDLM使用可伸缩矢量图形(SVG)进行精确的视觉描述,并通过预先训练的语言模型建立SVG和PVD之间的桥梁。VDLM具有更强的零样本性能,适用于各种基于二维矢量图形的低级多模态感知和推理任务。
该论文提出了一种基于TV-TREES的多模态蕴涵树生成器,用于解决电视剪辑等复杂多模态内容上的问答问题。实验证实了该方法在全视频剪辑上的零样本性能,在黑盒方法上取得了最先进的可解释性和性能的最佳结合。
本研究将SAM与开放词汇目标检测器集成,引入了SideFormer和Open-set RPN等创新方法,提升了SAM在检测任意对象和开放词汇识别方面的性能。Sambor在基准测试中表现出卓越的零样本性能,与之前的最先进方法竞争力十足,为SAM的识别多样化对象类别和促进视觉基础模型的开放词汇学习提供了有意义的努力。
研究发现,合理设计的医学提示语是调用预训练模型知识的关键,通过使用共享的表达属性提示,可以改进泛化能力,优化对新对象的识别。通过自动化生成医学提示的三种方法,可以注入专家级的医学知识和图像特定信息,提高零样本性能。微调模型超过了受监督的模型。
完成下面两步后,将自动完成登录并继续当前操作。