小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
Ψ0——人形全身VLA:先用800h人类自视角视频数据和30h的真实机器人交互数据预训练VLM,再后训练MM-DiT,最后用AMO做下肢RL跟踪

本文介绍了Ψ0模型,该模型结合大规模人类视频数据与真实机器人数据,训练出一种用于类人机器人灵巧运动的视觉-语言动作模型,能够有效提取运动先验,实现复杂的全身控制。

Ψ0——人形全身VLA:先用800h人类自视角视频数据和30h的真实机器人交互数据预训练VLM,再后训练MM-DiT,最后用AMO做下肢RL跟踪

结构之法 算法之道
结构之法 算法之道 · 2026-03-21T11:15:57Z
VLSU:绘制人工智能安全的多模态联合理解的界限

本文介绍了视觉语言安全理解(VLSU)框架,用于评估多模态模型的安全性。研究表明,现有模型在图像与文本的联合理解方面表现不佳,准确率从90%降至20-55%。此外,模型在拒绝不安全内容与处理边界案例之间难以平衡,导致过度屏蔽或拒绝率下降。VLSU框架揭示了当前模型的不足,为未来研究提供了基础。

VLSU:绘制人工智能安全的多模态联合理解的界限

Apple Machine Learning Research
Apple Machine Learning Research · 2026-01-27T00:00:00Z
视觉语言安全理解(VLSU):联合多模态理解的局限性映射

本文介绍了视觉语言安全理解(VLSU)框架,旨在系统评估多模态模型的安全性。研究发现,现有模型在处理图像与文本的联合理解时准确率显著下降,从90%降至20-55%。此外,模型在拒绝不安全内容与处理边界案例之间难以取得平衡。VLSU框架通过构建包含8187个样本的基准,揭示了当前模型的不足,并为未来研究提供了重要测试平台。

视觉语言安全理解(VLSU):联合多模态理解的局限性映射

Apple Machine Learning Research
Apple Machine Learning Research · 2025-11-20T00:00:00Z

LeVERB是一个基于视觉-语言指令的人形机器人全身控制模型,结合高频控制与低频规划,通过合成数据训练,灵活执行指令。其创新在于分层架构,有效整合视觉与语言,提升机器人运动能力。

LeVERB——潜在视觉-语言指令驱动的人形全身控制:快慢双系统下VLM感知环境和指令,VLA执行动作(完全基于合成数据进行训练)

结构之法 算法之道
结构之法 算法之道 · 2025-08-26T13:35:21Z

今天凌晨,Apple 举办了 2025 年 WWDC 全球开发者大会,发布了全新的 26 系列系统,并统一了视觉语言。少数派整理了开幕式的详细回顾和要点,方便用户了解动态。

一图流 | WWDC25 开幕式回顾

少数派
少数派 · 2025-06-09T22:41:17Z
Video-LLaMA:用于视频理解的指令调优音频-视觉语言模型

Video-LLaMA架构包含视觉-语言和音频-语言两个分支。视觉-语言分支使用Webvid-2M数据集进行预训练,模型生成内容能力强,但指令遵循能力较弱,因此需要微调。第一阶段冻结视觉编码器,使用可训练的视频Q-Former处理帧输入。

Video-LLaMA:用于视频理解的指令调优音频-视觉语言模型

DEV Community
DEV Community · 2025-05-30T02:51:56Z

NORA是一种小型开源视觉语言动作模型,旨在克服现有模型在视觉编码中的局限性。它通过降低计算开销和增强视觉推理,超越了大型视觉语言动作模型,成为实时机器人自主性的有效解决方案。

NORA: A Small Open-Sourced Generalist Vision Language Action Model for Embodied Tasks

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-28T00:00:00Z

本研究提出了一种描述任何内容模型(DAM),旨在解决视觉-语言模型在图像和视频特定区域生成详细描述的挑战。该模型通过聚焦提示和局部视觉骨干,结合局部细节与全局上下文,在七个基准测试中刷新了局部字幕生成的记录,显示出显著进展。

Describe Anything: Detailed Localized Image and Video Captioning

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-22T00:00:00Z

许多人工智能公司的徽标设计呈现圆形、渐变和中心开口,常被视为类似屁眼。这种趋势源于心理学、模仿和设计委员会的保守选择。尽管有助于建立信任,但也可能限制创新。未来公司应考虑更独特的视觉语言,以避免设计千篇一律。

为什么人工智能公司的标志看起来像屁眼?

程序师
程序师 · 2025-04-15T02:38:57Z

阿里发布了Qwen2.5-VL-32B-Instruct多模态模型,具备强大的视觉语言和数学推理能力,支持本地部署,已在Hugging Face上开源,用户可直接体验。

32B本地部署!阿里开源最新多模态模型:主打视觉语言,数学推理也很强

量子位
量子位 · 2025-03-25T01:18:46Z

本研究提出了一种多频扰动(MFP)方法,旨在解决多模态大语言模型在视觉语言任务中的物体幻觉问题。该方法通过干扰视觉特征表示,显著减少幻觉现象,并在CHAIR基准测试中取得优异成绩。

Mitigating Object Hallucination in Multimodal Large Language Models through Multi-Frequency Perturbation

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-19T00:00:00Z
重磅发现!DeepSeek R1方法成功迁移到视觉领域,多模态AI迎来新突破!

VLM-R1是一个新开源项目,将DeepSeek的R1方法应用于视觉语言领域,展现出优越的稳定性和泛化能力,提供简便的训练流程,能够准确识别和推理视觉内容,推动多模态AI技术的发展。

重磅发现!DeepSeek R1方法成功迁移到视觉领域,多模态AI迎来新突破!

机器之心
机器之心 · 2025-02-20T07:22:43Z

谷歌推出了史上最大规模的视觉语言数据集WebLI-100B,包含1000亿图像-文本对,增强了多样性和多语言能力。研究表明,数据规模越大,模型对细节的理解越好,但CLIP模型的过滤可能影响文化多元性。研究团队包括ViT核心作者翟晓华,他将于2024年加入OpenAI。

谷歌全网扒1000亿图像文本对,ViT大佬坐镇:数据Scaling潜力依旧

量子位
量子位 · 2025-02-13T09:13:47Z

本研究提出了一种新方法,缩小了无编码视觉语言模型与编码模型之间的性能差距。通过分解和分层关联视觉与语言,EVEv2.0在数据效率和视觉推理能力上表现优越,展现了无编码架构在多模态任务中的潜力。

EVEv2:改进的无编码视觉语言模型基线

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-10T00:00:00Z
仅缩小视觉Token位置编码间隔,轻松让多模态大模型理解百万Token!清华大学,香港大学,上海AI Lab新突破

清华大学等机构提出的可变视觉位置编码方法(V2PE)旨在提升视觉-语言多模态模型在长上下文场景下的表现。V2PE通过为视觉token分配可变位置增量,克服了传统位置编码的局限性,显著增强了模型在超长上下文任务中的能力。

仅缩小视觉Token位置编码间隔,轻松让多模态大模型理解百万Token!清华大学,香港大学,上海AI Lab新突破

机器之心
机器之心 · 2025-01-15T04:56:15Z

该研究提出了一种无人机-视觉语言-行动(UAV-VLA)系统,通过结合卫星图像处理和视觉语言模型,提高任务规划效率,减少航迹长度22%和目标定位误差,展示了其在空中作战中的价值。

UAV-Visual Language-Action System: Large-Scale Aerial Mission Generation

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-09T00:00:00Z

本研究探讨视觉-语言任务中的挑战,包括视觉描述、问答和常识推理。通过综述预训练模型的应用,提出新范式以应对这些挑战,并展示其在下游任务中的优越表现。尽管取得了一定进展,但仍需关注模型的局限性和潜在风险。

How Vision-Language Tasks Benefit from Large Pre-trained Models: A Review

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-11T00:00:00Z

本研究通过整合细粒度概念注释,提升了多模态大型语言模型在视觉-语言任务中的性能,并推出了新数据集MMGiC,实验结果显示模型表现显著提高。

探索多粒度概念注释在多模态大型语言模型中的应用

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-08T00:00:00Z

本研究提出了一种新颖的多任务视觉-语言预训练方法MG-3D,旨在解决3D医学图像分析中的标签数据稀缺和模型泛化能力不足的问题,显著提升特征表示能力,对临床应用具有重要意义。

MG-3D: Multi-Granularity Knowledge Enhanced 3D Medical Vision-Language Pre-training

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-08T00:00:00Z

本研究提出了综合性基准VL-RewardBench,用于评估视觉-语言生成奖励模型(VL-GenRMs)。通过高质量样本选择与人工验证,发现该基准能够揭示模型在视觉感知任务中的失误,并与其他测评结果高度相关,为改进VL-GenRMs提供了重要见解。

VLRewardBench:一个具有挑战性的视觉-语言生成奖励模型基准

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-26T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码