BriefGPT - AI 论文速递 ·

透视对话：基于扩散模型的音频 - 视觉语音分离

💡 原文中文，约300字，阅读约需1分钟。

📝

内容提要

本文介绍了一种基于扩散机制的音视频语音分离模型AVDiffuSS，能够从声音混合中提取目标发言者的声音，并提出了一种基于交叉注意力的特征融合机制。该模型在语音生成中集成语音视觉对应的语音信息，在 VoxCeleb2 和 LRS3 这两个基准测试上取得了最先进的结果，生成的语音音质更好。

🎯

关键要点

本文介绍了一种基于扩散机制的音视频语音分离模型AVDiffuSS。
AVDiffuSS能够通过视觉线索从声音混合中提取目标发言者的声音。
该模型在保持自然性方面具有挑战。
提出了一种基于交叉注意力的特征融合机制，以实现两种模态的有效融合。
在语音生成中集成语音视觉对应的语音信息。
在VoxCeleb2和LRS3这两个基准测试上取得了最先进的结果。
生成的语音具有显著更好的自然音质。

🏷️

标签

交叉注意力扩散机制扩散模型特征融合语音生成音视频语音分离

➡️

继续阅读

FlashTTS：面向实时语音对话的低时延流式语音合成 | Interspeech 2026
近年来，基于大语言模型（LLM）的文本转语音技术快速发展，基于大语言模型（LLM）的TTS方案已经在自然度、音色相似度和零样本音色克隆（zero-shot...
LG Uplus 与爱立信公布语音 AI 合作协议
LG Uplus 与全球电信设备公司爱立信携手合作。 LG Uplus宣布，于当地时间7月14日在瑞典斯德哥尔摩的爱立信总部签署了一项战略合作协议，旨在推...
AI语音进入“表演时代”：阿里Qwen-Audio-3.0-TTS登顶全球权威榜单
细粒度标签+ 20 种方言
光鉴科技发布具身智能视觉感知方案，为物理AI提供视觉感知基础
实时音视频(RTC) 延迟标准如何重塑远程医疗平台性能
远程医疗运行在一个速度几乎影响每一个就诊环节的行业里，加入在线问诊时你期望医生的回应即时到达，查看实时监护数据时同样容不得迟滞，哪怕短暂的卡顿也会迅速瓦解...
国内首个！阿里健康氢离子达成NEJM、JAMA、BMJ三大医学顶刊内容合作