量子位 ·

分割/识别/解说一个模型搞定！3B参数刷新视觉理解SOTA，图像视频全适配

💡 原文中文，约2400字，阅读约需6分钟。

📝

内容提要

PAM（Perceive Anything Model）模型通过3B参数实现图像和视频的分割、识别与描述，支持多种输出，且数据已开源。该模型在多个基准测试中表现优异，具备高效推理和轻量化特点，适用于AR/VR等场景。

🎯

关键要点

PAM（Perceive Anything Model）模型通过3B参数实现图像和视频的分割、识别与描述。
模型支持多种输出，包括语义信息，且所有数据已开源。
PAM团队构建了一个超大规模高质量训练数据集，包含150万个图像区域和60万个视频区域标注。
PAM在多个基准测试中表现优异，具备高效推理和轻量化特点。
PAM能够同时输出分割结果和丰富的语义信息，适用于AR/VR等场景。
PAM支持图像和视频任务的区域理解，用户只需一次点击即可获得详细信息。
PAM引入Semantic Perceiver连接SAM2分割骨架和LLM，实现多模态token的高效转换。
PAM在多个benchmark上以更小的参数规模刷新或并列SOTA，展现出强大的实际应用潜力。

❓

延伸问答

PAM模型的主要功能是什么？

PAM模型能够实现图像和视频的分割、识别与描述，支持多种输出。

PAM模型的参数规模是多少？

PAM模型使用了3B参数。

PAM模型在基准测试中的表现如何？

PAM在多个基准测试中表现优异，刷新或并列SOTA。

PAM模型如何处理视频任务？

PAM支持区域理解，能够追踪分割物体并输出事件描述。

PAM模型的数据集规模有多大？

PAM团队构建了一个包含150万个图像区域和60万个视频区域标注的超大规模数据集。

PAM模型的应用场景有哪些？

PAM适用于AR/VR等场景，能够实现快速响应和轻量化推理。

🏷️

继续阅读

[开源] 阿里巴巴发布AI驱动的代码审查工具Open Code Review 帮助开发者审查代码
阿里巴巴开源了基于人工智能的代码审查工具Open Code Review（OCR），旨在解决传统审查中的覆盖不全、位置漂移和不稳定等问题。开发者可通过配置...
Roku LT OS开源解析：从遥控器系统到电动赛车控制平台
Roku开源了Roku LT OS，旨在为开发者提供轻量化架构和高度确定性的执行能力，适用于嵌入式设备和电动赛车。该系统强调资源控制和时间可预测性，已在电...
Crown Engine 0.63 恢复了其 OpenGL 渲染器，以支持旧版硬件
Crown Engine 0.63 是一款基于 C++ 的开源游戏引擎，新增 LOD 组组件以优化性能，并支持 OBJ 网格格式。更新改进了 FBX 导入...
VoidZero团队已加入Cloudflare
VoidZero团队已加入Cloudflare，Vite及其相关项目将继续保持开源和中立。Cloudflare承诺投资100万美元支持Vite生态系统的维...
MiniCPM5-1B采用RL+OPD训练，多项复杂任务达SOTA；面向复杂医疗业务自动化：医疗智能体评测数据集 CHI-Bench
TACK 是 AI Laboratory for Molecular Engineering 于 2026 年发布的一个标准化知识库数据集与基准测试集，旨...
基于220种海洋细菌，科学家用基因组尺度模型重构异养微生物分类体系，挖出8类代谢菌群
研究揭示海洋异养微生物的代谢生态位，打破传统的富营养型与寡营养型二分法，提出8类代谢菌群。通过基因组分析，阐明其生长规律与资源竞争，推动全球碳循环研究，为...