小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
GraspVLA——在互联网数据和十亿级规模合成动作数据SynGrasp-1B上预训练的抓取基础模型:基于渐进式动作生成PAG技术

GraspVLA是一种基于十亿级合成抓取数据集的机器人抓取模型,结合视觉语言模型和动作生成机制,提升了抓取技能的泛化能力。该模型通过渐进式动作生成方法,实现了仿真到现实的迁移,展现出优异的零样本性能。

GraspVLA——在互联网数据和十亿级规模合成动作数据SynGrasp-1B上预训练的抓取基础模型:基于渐进式动作生成PAG技术

结构之法 算法之道
结构之法 算法之道 · 2026-01-06T15:36:00Z

本研究提出CLIP-Refine方法,旨在解决现代视觉语言模型中图像与文本特征的模态差距问题。通过在小型数据集上训练,实现特征空间对齐,提升零样本性能。实验结果表明,CLIP-Refine有效减轻了模态差距。

视觉语言基础模型中的后预训练用于模态对齐

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-17T00:00:00Z

本研究提出了一种新颖的视觉-语言-动作架构OPAL,解决了机器人控制中的因果理解缺失问题。实验结果表明,OPAL在复杂操作任务上优于传统方法,显著提升了零样本性能,并减少了42%的推理计算需求。

OPAL: Causal Understanding Encoding of Physical Systems for Robot Learning

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-09T00:00:00Z

本研究提出AquaticCLIP,一种新型的对比语言-图像预训练模型,旨在解决水下场景理解中的人工标注不足问题。该模型通过构建200万对水下图像-文本配对数据集,显著提升了水下计算机视觉任务的零样本性能,为水下环境的视觉-语言应用设定了新基准。

AquaticCLIP: A Vision-Language Foundation Model for Underwater Scene Analysis

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-03T00:00:00Z

本文研究了预训练视觉语言模型在医学图像中的应用,强调医学提示语设计的重要性。通过共享表达属性提示,提升了模型的泛化能力和新对象识别能力。研究提出多种自动生成医学提示的方法,显著提高了零样本性能。此外,开发了MedRG框架和MedRegA系统,增强了医学视觉语言任务的表现、可解释性和用户交互性。

高效参数微调的医学多模态大语言模型用于医学视觉定位

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-31T00:00:00Z

本研究探讨了GPT-4V在时尚美学评估中的零样本性能,结果显示其预测与人类判断一致,但在相似颜色服饰的排名上存在困难,为机器学习在时尚领域的应用提供了新见解。

Empirical Analysis of GPT-4V in Fashion Aesthetic Evaluation

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-31T00:00:00Z

本研究提出利用大型视觉语言模型(LVLMs)提升视频监控系统的动作识别能力。实验结果显示,改进的自反采样方法在UCF-Crime数据集上显著提高了VideoLLaMA2的零样本性能,展现出广泛的应用潜力。

Zero-Shot Action Recognition in Surveillance Videos

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-28T00:00:00Z

本研究探讨了数据集和预训练模型中的固有偏见,提出了一种概念漂移方法,通过分析线性探针的权重更新轨迹揭示隐藏偏见。该方法在偏见增强提示下显著改善了零样本性能,展现出广泛的应用潜力。

Concept Drift: Uncovering Biases through the Lens of Foundational Models

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-24T00:00:00Z

本文研究了预训练视觉语言模型在医学图像中的应用,强调医学提示语设计的重要性。通过共享表达属性提示,模型的知识得以跨领域传递,提升了新对象识别能力。研究介绍了多种自动生成医学提示的方法,显著提高了零样本性能和模型可解释性,推动了医学图像分析的发展。

医学影像语言模型中的视觉提示工程研究

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-28T00:00:00Z

本文介绍了一种名为VDLM的模型,旨在提升大型视觉语言模型在二维矢量图形推理中的表现。通过使用可伸缩矢量图形(SVG),VDLM能够更好地处理视觉细节,增强零样本性能。同时,研究评估了该模型在图表理解和视频对齐等任务中的优势与局限性,强调了进一步改进的必要性。

VGBench:对矢量图形理解和生成的大型语言模型评价

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-15T00:00:00Z

本文提出了一种基于词汇层面masking的后训练策略,旨在解决大规模神经语言模型的时间通用性问题。研究表明,该策略在多个预训练模型和数据集上优于传统训练方法,尤其在文本分类任务中表现突出。通过量化和交叉熵损失训练Chronos模型,评估结果显示其在新数据集上具有良好的零样本性能,简化了预测流程。

ChronosLex: 法律分类任务的时间感知增量训练

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-05-23T00:00:00Z

本文研究了预训练视觉语言模型在医学图像中的应用,强调医学提示语设计的重要性。通过共享表达属性提示,提升了模型的泛化能力和新对象识别能力。研究提出了多种自动生成医学提示的方法,显著提高了零样本性能,并构建了医学视觉语言基准以评估效果。

MoVL: 探索预训练模型在医学图像任务中的领域自适应应用的融合策略

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-05-13T00:00:00Z

本文分析了预训练mT5模型在90种语言对之间的跨语言学习,发现语法和音韵相似度对零样本性能有良好预测性。研究表明,源语言和目标语言的脚本相同会提升模型表现,混合脚本的语言表现优于单一语言。此外,提出了一种跨语言知识共享架构,通过交叉关注生成更好的文本表示,显著提升低资源语言的性能。

未知文字:脚本对跨语言迁移的影响

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-04-29T00:00:00Z

本文介绍了一种上下文提示学习框架,旨在提升多模态学习中图像本地化特征的对齐能力。通过在多个数据集上的应用,证明了该框架在性能上优于现有技术。此外,研究探讨了医学图像领域的知识传递,提出了自动生成医学提示的方法,显著提高了零样本性能,为预训练模型间的协同作用提供了新思路。

XCoOp:基于概念引导的上下文优化的计算机辅助诊断可解释式提示学习

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-03-14T00:00:00Z

该论文提出了一种基于TV-TREES的多模态蕴涵树生成器,用于解决电视剪辑等复杂多模态内容上的问答问题。实验证实了该方法在全视频剪辑上的零样本性能,在黑盒方法上取得了最先进的可解释性和性能的最佳结合。

TV-TREES: 多模态蕴涵树用于神经符号化视频推理

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-02-29T00:00:00Z

本研究将SAM与开放词汇目标检测器集成,引入了SideFormer和Open-set RPN等创新方法,提升了SAM在检测任意对象和开放词汇识别方面的性能。Sambor在基准测试中表现出卓越的零样本性能,与之前的最先进方法竞争力十足,为SAM的识别多样化对象类别和促进视觉基础模型的开放词汇学习提供了有意义的努力。

基于目标检测器和经适应的 SAR 图像分割模型的组成式油污检测

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-01-15T00:00:00Z

研究发现,合理设计的医学提示语是调用预训练模型知识的关键,通过使用共享的表达属性提示,可以改进泛化能力,优化对新对象的识别。通过自动化生成医学提示的三种方法,可以注入专家级的医学知识和图像特定信息,提高零样本性能。微调模型超过了受监督的模型。

UniDCP: 通过动态的跨模态可学习提示统一多个医学视觉语言任务

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-12-18T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码