Meta AI 发布感知语言模型 (PLM)：用于解决视觉识别难题的开放式可复制视觉语言模型

实时互动网 ·

Meta AI 发布感知语言模型 (PLM)：用于解决视觉识别难题的开放式可复制视觉语言模型

💡 原文中文，约1800字，阅读约需5分钟。

📝

内容提要

Meta AI推出了感知语言模型（PLM），这是一个开放且可复现的视觉语言建模框架，支持图像和视频输入。PLM通过合成数据和人工标记数据进行训练，强调透明性和可评估性，集成了视觉编码器和不同参数的语言解码器，采用多阶段训练流程。PLM发布了两个高质量视频数据集，支持细粒度视频理解，并在多个基准测试中表现优异，推动了多模态人工智能研究。

🎯

关键要点

Meta AI推出了感知语言模型（PLM），这是一个开放且可复现的视觉语言建模框架。
PLM支持图像和视频输入，强调透明性和可评估性。
模型通过合成数据和人工标记数据进行训练，集成了视觉编码器和不同参数的语言解码器。
PLM采用多阶段训练流程，确保训练稳定性和可扩展性。
发布了两个高质量视频数据集，PLM-FGQA和PLM-STC，支持细粒度视频理解。
PLM采用模块化架构，支持高分辨率图像和多帧视频输入。
Meta AI推出了PLM-VideoBench，评估视频理解方面的基准测试集。
PLM在多个图像和视频基准测试中表现优异，尤其在视频字幕生成方面提升显著。
PLM提供了一个方法论严谨且完全开放的框架，旨在推动多模态人工智能研究。

❓

延伸问答

感知语言模型（PLM）是什么？

感知语言模型（PLM）是Meta AI推出的一个开放且可复现的视觉语言建模框架，支持图像和视频输入。

PLM是如何进行训练的？

PLM通过合成数据和人工标记数据进行训练，采用多阶段训练流程，确保训练稳定性和可扩展性。

PLM发布了哪些数据集？

PLM发布了两个高质量视频数据集：PLM-FGQA和PLM-STC，支持细粒度视频理解。

PLM在视频理解方面的表现如何？

PLM在多个图像和视频基准测试中表现优异，尤其在视频字幕生成方面提升显著，平均比开放基线模型提升了39.8 CIDEr。

PLM的模块化架构有什么特点？

PLM采用模块化架构，支持高分辨率图像和多帧视频输入，能够处理复杂的视觉任务。

PLM-VideoBench是什么？

PLM-VideoBench是Meta AI推出的一个新的基准测试集，旨在评估视频理解方面的任务。

🏷️

继续阅读

使用Scikit-LLM与开源语言模型
本文介绍如何使用Ollama本地托管的开源语言模型（如Llama 3、Mistral和Gemma）进行文本分类，避免支付API费用。内容包括Ollama的...
机器视觉压缩的三种途径：VCM、FCM 和 V-Nova 通配符
视频编码技术正向机器视觉优化发展，主要有三种方案：面向机器的视频编码（VCM）、面向机器的特征编码（FCM）和V-Nova的LCEVC。VCM优化像素处理...
LeCun 10亿押注的方向，全球领先视觉大模型团队早已布局
视启未来团队专注于开发隐空间世界模型，推动AI从“看见”向“预见”转变。创始人张磊指出，理解因果关系和物理规律至关重要。团队通过提升物体理解能力，推出全球...
别把 Go 写成 Java：毁掉项目从过度架构开始
本文永久链接 – https://tonybai.com/2026/06/05/stop-writing-go-like-java-avoid-over-...
Author Talks: How to succeed when systems fail
What if the fastest way to transform an organization is through crisis? Marin...
2026 06 05 HackerNews
2026-06-05 Hacker News Top Stories # 大语言模型完全由浮点数权重组成，通过80层矩阵乘法实现语言能力，本质上...

Meta AI 发布感知语言模型 (PLM)： 用于解决视觉识别难题的开放式可复制视觉语言模型