Meta AI开源感知编码器视听(PE-AV)：为SAM音频和多模态检索提供支持的视听编码器

实时互动网 ·

Meta AI开源感知编码器视听(PE-AV)：为SAM音频和多模态检索提供支持的视听编码器

💡 原文中文，约3000字，阅读约需8分钟。

📝

内容提要

Meta推出了感知编码器视听模型（PE-AV），该模型通过对1亿个带字幕的音视频对进行训练，实现音频、视频和文本的对齐表示。PE-AV在多个基准测试中表现优异，支持跨模态检索和理解，并结合两阶段数据引擎生成合成字幕，提高了多模态监督的效率。

🎯

关键要点

Meta推出了感知编码器视听模型（PE-AV），用于音频和视频的联合理解。
PE-AV通过对1亿个带字幕的音视频对进行训练，实现音频、视频和文本的对齐表示。
该模型在多个基准测试中表现优异，支持跨模态检索和理解。
PE-AV架构包括帧编码器、视频编码器、音频编码器、音视频融合编码器及文本编码器。
音频路径使用DAC VAE编解码器，将原始波形转换为离散音频令牌。
两阶段数据引擎生成高质量的合成字幕，第一阶段使用弱音频字幕模型，第二阶段与感知语言模型配对优化字幕。
PE-AV在多个音频和视频基准测试中取得了最先进的性能，提升了检索和分类的准确率。
PE A-Frame是用于声音事件定位的音频文本嵌入模型，能够精确定位音频中的事件。
PE-AV和PE A-Frame是Meta感知模型堆栈的一部分，结合了视觉和语言模型用于多模态生成和推理。
PE-AV通过对比学习在广泛的音频和视频基准测试中树立了新的技术水平。

🏷️

继续阅读

HandBrake 1.11 新增了 ProRes、DNxHR 编码器和 MOV 输出格式
开源视频转码器HandBrake发布1.11.0版本，新增DNxHR和ProRes编码器，支持最高4K分辨率的MOV输出，增加AMD VCN AV1编码器...
GTK 4.22 发布，改进了 SVG 支持，并减少了动态效果选项
GTK 4.22于3月6日发布，带来修复、Wayland改进、增强的SVG支持和可访问性选项，是GTK 4的重要更新。可从GNOME.org和GTK.org下载。
20250310
作者经历了一次长时间的睡眠，梦见了许多不可能的人和故事。因工作过度感到虚弱，意识到需要休息，决定减少工作时间，以保持创造力和好奇心。
AI客服越智能越坑人？坑了商家、坑客户，咋办？
你是否也在烦恼AI客服只会兜圈子、不给退款、死活不转人工？这期内容拆解AI客服常见套路，教你识别“只会聊天不办事”的系统，并学会更高效地和AI客服沟通。 ...
本周PSC动态（217）| 2026年3月9日
我们召开了简短会议，讨论潜在新核心团队成员的进展，决定在所有人回复后投票。发现PSC过渡中遗漏了一个小步骤，决定制定检查清单。会议时间有限，未讨论太多问题...
派早报：达摩院发布脂肪肝筛查 AI 模型 MAOSS 等
少数派的近期动态少数派年度征文投稿窗口最后一周！古法手搓大战人工智能，你会是哪条赛道的大赢家？参与一下你可能错过的文章年度征文｜荷马与人工智能：一场跨越三...

Meta AI开源感知编码器视听(PE-AV)：为SAM音频和多模态检索提供支持的视听编码器

内容提要

关键要点

标签

继续阅读