小红花·文摘

VLSU：绘制人工智能安全的多模态联合理解的界限

Apple Machine Learning Research ·

视觉语言安全理解（VLSU）：联合多模态理解的局限性映射

Apple Machine Learning Research ·

今天凌晨，Apple 举办了 2025 年 WWDC 全球开发者大会，发布了全新的 26 系列系统，并统一了视觉语言。少数派整理了开幕式的详细回顾和要点，方便用户了解动态。

一图流 | WWDC25 开幕式回顾

少数派 ·

NORA是一种小型开源视觉语言动作模型，旨在克服现有模型在视觉编码中的局限性。它通过降低计算开销和增强视觉推理，超越了大型视觉语言动作模型，成为实时机器人自主性的有效解决方案。

NORA: A Small Open-Sourced Generalist Vision Language Action Model for Embodied Tasks

BriefGPT - AI 论文速递 ·

许多人工智能公司的徽标设计呈现圆形、渐变和中心开口，常被视为类似屁眼。这种趋势源于心理学、模仿和设计委员会的保守选择。尽管有助于建立信任，但也可能限制创新。未来公司应考虑更独特的视觉语言，以避免设计千篇一律。

为什么人工智能公司的标志看起来像屁眼？

程序师 ·

阿里发布了Qwen2.5-VL-32B-Instruct多模态模型，具备强大的视觉语言和数学推理能力，支持本地部署，已在Hugging Face上开源，用户可直接体验。

32B本地部署！阿里开源最新多模态模型：主打视觉语言，数学推理也很强

量子位 ·

本研究提出了一种多频扰动（MFP）方法，旨在解决多模态大语言模型在视觉语言任务中的物体幻觉问题。该方法通过干扰视觉特征表示，显著减少幻觉现象，并在CHAIR基准测试中取得优异成绩。

Mitigating Object Hallucination in Multimodal Large Language Models through Multi-Frequency Perturbation

BriefGPT - AI 论文速递 ·

重磅发现！DeepSeek R1方法成功迁移到视觉领域，多模态AI迎来新突破！

机器之心 ·

谷歌推出了史上最大规模的视觉语言数据集WebLI-100B，包含1000亿图像-文本对，增强了多样性和多语言能力。研究表明，数据规模越大，模型对细节的理解越好，但CLIP模型的过滤可能影响文化多元性。研究团队包括ViT核心作者翟晓华，他将于2024年加入OpenAI。

谷歌全网扒1000亿图像文本对，ViT大佬坐镇：数据Scaling潜力依旧

量子位 ·

本研究提出了一种新方法，缩小了无编码视觉语言模型与编码模型之间的性能差距。通过分解和分层关联视觉与语言，EVEv2.0在数据效率和视觉推理能力上表现优越，展现了无编码架构在多模态任务中的潜力。

EVEv2：改进的无编码视觉语言模型基线

BriefGPT - AI 论文速递 ·

该研究提出了一种无人机-视觉语言-行动(UAV-VLA)系统，通过结合卫星图像处理和视觉语言模型，提高任务规划效率，减少航迹长度22%和目标定位误差，展示了其在空中作战中的价值。

UAV-Visual Language-Action System: Large-Scale Aerial Mission Generation

BriefGPT - AI 论文速递 ·

本研究提出了ArtELingo-28基准，涵盖28种语言和约20万个注释，旨在解决视觉和语言基准在多语言和多文化视角上的不足，强调文化多样性对情感注释的影响。

无文化被遗忘：ArtELingo-28，一项涵盖28种语言的WikiArt基准测试

BriefGPT - AI 论文速递 ·

本研究提出了一种名为SuperClass的简化分类方法，直接使用标记的原始文本作为监督标签，省略了文本编码。研究表明，该方法在视觉语言任务中表现优异，提供了更高效的分类方式。

视觉-语言预训练的正确分类方法

BriefGPT - AI 论文速递 ·

本研究提出了REM框架，通过视频扩散模型学习视觉语言表示，以解决视频中的概念分割不足问题。实验结果表明，REM在特定领域表现优异，并在非特定领域提高了区域相似度，展示了预训练的强大能力。

全面参照：迈向我们在视频中能描述的所有事物的分割

BriefGPT - AI 论文速递 ·

最近，多模态大型语言模型在图像感知和指令执行上表现出色。研究表明，预训练的视觉语言模型能有效连接视觉与语言。基于此，提出了 Muffin 框架，利用预训练模型提供视觉信号，并推出 UniMM-Chat 数据集，生成了 110万条多模态指令。实验结果显示，Muffin 在视觉语言任务中表现优异，超越现有模型。