BriefGPT - AI 论文速递 ·

Papez: 基于听觉工作记忆的资源高效语音分离

💡 原文中文，约1600字，阅读约需4分钟。

📝

内容提要

本文探讨了Transformer模型在多说话者语音识别中的应用，实验结果显示其相对错误率显著降低。同时，提出了音频-视觉声音分离方案和基于多通道的ASR系统，均取得良好效果。研究还涉及语音分离模型的可转移性及其在低资源环境下的应用，展示了新架构在实时任务中的优势。

🎯

❓

Transformer模型在多说话者语音识别中相对错误率显著降低，单通道和多通道任务下分别降低达40.9%和25.6%。

该方案基于两级网络，利用轻量级图卷积网络提取面部运动线索，将视觉和音频特征输入音频-视觉转换器进行声音隔离估计。

该ASR系统结合了定向最小方差冲束形成器和自注意力的通道合并方案，在多通道语音识别中表现更好，验证了前置去混响的益处。

通过使用教师-学生学习方法和未标记语音数据，可以显著降低语音分离的单词错误率（WER），提高模型性能。

研究探讨了语音分离模型在不同任务中的可转移性，显示其在唱声分离任务中的有效性。

通过去除特定模块和减少数字精度，成功简化和压缩了基于Transformer的端到端语音识别架构，同时保持高精度。

🏷️

Via Licensing Alliance 通过新增被许可方和许可方扩展语音编解码器计划，并发布全面的专利池费率结构
Via Licensing Alliance宣布其语音编解码器专利池持续增长，新增NovaVoice Limited和Cordial IP等许可方，显示出...
OpenClaw v2026.5.20：Discord语音跟随和doctor拦截明文密钥
OpenClaw 2026.5.20版本更新了Discord语音功能，机器人可以跟随用户换频道，并新增doctor插件以自动检测明文密码。修复了Windo...
Google 开源 AX 与 Agent Substrate：构建以 Agent 为核心的云原生计算底座
Google 在 I/O ’26 大会上推出了以 Agent 为核心的云原生计算基础设施，包括开源项目 AX 和 Agent Substrate。该系统通...
Midjourney 承认使用 TPU 致研究倒退一年
Midjourney因使用谷歌TPU导致研究进度延迟一年，后悔未坚持使用英伟达芯片。硬件切换引发的软件兼容性问题和调试困难，显示出英伟达CUDA生态的优势...
马斯克狂赚！Anthropic每月付SpaceXAI 12.5亿美金抢算力
SpaceXAI与AI公司Anthropic签署了每月12.5亿美元的算力租赁合同，总额接近450亿美元。由于算力短缺，Anthropic愿意支付高额租金...
DeepSeek V4 Pro永久降价 AI价格打骨折
DeepSeek公司将其V4 Pro高端AI模型的价格永久降至原价的四分之一，缓存价格降至十分之一，吸引了大量开发者迁移。V4 Pro专注于复杂任务，降价...