小红花·文摘

$Ψ0——人形全身VLA：先用800h人类自视角视频数据和30h的真实机器人交互数据预训练VLM，再后训练MM-DiT，最后用AMO做下肢RL跟踪$

Ψ0——人形全身VLA：先用800h人类自视角视频数据和30h的真实机器人交互数据预训练VLM，再后训练MM-DiT，最后用AMO做下肢RL跟踪

结构之法算法之道 ·

VLSU：绘制人工智能安全的多模态联合理解的界限

Apple Machine Learning Research ·

视觉语言安全理解（VLSU）：联合多模态理解的局限性映射

Apple Machine Learning Research ·

LeVERB是一个基于视觉-语言指令的人形机器人全身控制模型，结合高频控制与低频规划，通过合成数据训练，灵活执行指令。其创新在于分层架构，有效整合视觉与语言，提升机器人运动能力。

LeVERB——潜在视觉-语言指令驱动的人形全身控制：快慢双系统下VLM感知环境和指令，VLA执行动作(完全基于合成数据进行训练)

结构之法算法之道 ·

今天凌晨，Apple 举办了 2025 年 WWDC 全球开发者大会，发布了全新的 26 系列系统，并统一了视觉语言。少数派整理了开幕式的详细回顾和要点，方便用户了解动态。

一图流 | WWDC25 开幕式回顾

少数派 ·

Video-LLaMA：用于视频理解的指令调优音频-视觉语言模型

DEV Community ·

NORA是一种小型开源视觉语言动作模型，旨在克服现有模型在视觉编码中的局限性。它通过降低计算开销和增强视觉推理，超越了大型视觉语言动作模型，成为实时机器人自主性的有效解决方案。

NORA: A Small Open-Sourced Generalist Vision Language Action Model for Embodied Tasks

BriefGPT - AI 论文速递 ·

本研究提出了一种描述任何内容模型（DAM），旨在解决视觉-语言模型在图像和视频特定区域生成详细描述的挑战。该模型通过聚焦提示和局部视觉骨干，结合局部细节与全局上下文，在七个基准测试中刷新了局部字幕生成的记录，显示出显著进展。

Describe Anything: Detailed Localized Image and Video Captioning

BriefGPT - AI 论文速递 ·

许多人工智能公司的徽标设计呈现圆形、渐变和中心开口，常被视为类似屁眼。这种趋势源于心理学、模仿和设计委员会的保守选择。尽管有助于建立信任，但也可能限制创新。未来公司应考虑更独特的视觉语言，以避免设计千篇一律。

为什么人工智能公司的标志看起来像屁眼？

程序师 ·

阿里发布了Qwen2.5-VL-32B-Instruct多模态模型，具备强大的视觉语言和数学推理能力，支持本地部署，已在Hugging Face上开源，用户可直接体验。

32B本地部署！阿里开源最新多模态模型：主打视觉语言，数学推理也很强

量子位 ·

本研究提出了一种多频扰动（MFP）方法，旨在解决多模态大语言模型在视觉语言任务中的物体幻觉问题。该方法通过干扰视觉特征表示，显著减少幻觉现象，并在CHAIR基准测试中取得优异成绩。

Mitigating Object Hallucination in Multimodal Large Language Models through Multi-Frequency Perturbation

BriefGPT - AI 论文速递 ·

重磅发现！DeepSeek R1方法成功迁移到视觉领域，多模态AI迎来新突破！

机器之心 ·

谷歌推出了史上最大规模的视觉语言数据集WebLI-100B，包含1000亿图像-文本对，增强了多样性和多语言能力。研究表明，数据规模越大，模型对细节的理解越好，但CLIP模型的过滤可能影响文化多元性。研究团队包括ViT核心作者翟晓华，他将于2024年加入OpenAI。

谷歌全网扒1000亿图像文本对，ViT大佬坐镇：数据Scaling潜力依旧

量子位 ·

本研究提出了一种新方法，缩小了无编码视觉语言模型与编码模型之间的性能差距。通过分解和分层关联视觉与语言，EVEv2.0在数据效率和视觉推理能力上表现优越，展现了无编码架构在多模态任务中的潜力。

EVEv2：改进的无编码视觉语言模型基线

BriefGPT - AI 论文速递 ·

仅缩小视觉Token位置编码间隔，轻松让多模态大模型理解百万Token！清华大学，香港大学，上海AI Lab新突破

机器之心 ·

该研究提出了一种无人机-视觉语言-行动(UAV-VLA)系统，通过结合卫星图像处理和视觉语言模型，提高任务规划效率，减少航迹长度22%和目标定位误差，展示了其在空中作战中的价值。

UAV-Visual Language-Action System: Large-Scale Aerial Mission Generation

BriefGPT - AI 论文速递 ·

本研究探讨视觉-语言任务中的挑战，包括视觉描述、问答和常识推理。通过综述预训练模型的应用，提出新范式以应对这些挑战，并展示其在下游任务中的优越表现。尽管取得了一定进展，但仍需关注模型的局限性和潜在风险。

How Vision-Language Tasks Benefit from Large Pre-trained Models: A Review

BriefGPT - AI 论文速递 ·

本研究通过整合细粒度概念注释，提升了多模态大型语言模型在视觉-语言任务中的性能，并推出了新数据集MMGiC，实验结果显示模型表现显著提高。

探索多粒度概念注释在多模态大型语言模型中的应用

BriefGPT - AI 论文速递 ·

本研究提出了一种新颖的多任务视觉-语言预训练方法MG-3D，旨在解决3D医学图像分析中的标签数据稀缺和模型泛化能力不足的问题，显著提升特征表示能力，对临床应用具有重要意义。

MG-3D: Multi-Granularity Knowledge Enhanced 3D Medical Vision-Language Pre-training

BriefGPT - AI 论文速递 ·

本研究提出了综合性基准VL-RewardBench，用于评估视觉-语言生成奖励模型（VL-GenRMs）。通过高质量样本选择与人工验证，发现该基准能够揭示模型在视觉感知任务中的失误，并与其他测评结果高度相关，为改进VL-GenRMs提供了重要见解。

VLRewardBench：一个具有挑战性的视觉-语言生成奖励模型基准

BriefGPT - AI 论文速递 ·