清华大学生数科技:从波形到隐空间,AudioLBM引领音频超分新范式

💡 原文中文,约2600字,阅读约需7分钟。
📝

内容提要

清华大学与生数科技合作开发了音频超分辨率模型AudioLBM,能够将低采样率音频提升至192 kHz,显著改善音质。该模型基于桥类生成模型,采用隐空间建模,提升了音频生成的效率与质量,推动了音频超分领域的发展。

🎯

关键要点

  • 清华大学与生数科技合作开发音频超分辨率模型AudioLBM,提升低采样率音频至192 kHz。
  • 音频超分辨率技术提升语音清晰度、音乐细节与沉浸式音频体验。
  • 高频细节在低采样率信号中损失严重,音频生成领域面临挑战。
  • OpenAI推出的Sora 2模型能生成96 kHz音频,设立新技术标杆。
  • 清华大学与生数科技在ICASSP 2025和NeurIPS 2025发表了两项成果:Bridge-SR和AudioLBM。
  • Bridge-SR首次将薛定谔桥模型引入语音超分任务,实现高效、高保真的语音超分。
  • AudioLBM在波形连续隐空间中构建低分辨率到高分辨率的隐变量桥接生成过程。
  • AudioLBM提出频率感知机制,实现任意采样率到任意采样率的超分过程。
  • 级联桥类模型设计使得模型能力从48 kHz扩展至96 kHz与192 kHz。
  • AudioLBM在Any-to-48kHz超分任务上取得新的SOTA表现,显著提升通用性。
  • 李畅和陈泽华为两项目的第一作者,分别来自中国科学技术大学和清华大学。
➡️

继续阅读