量子位 ·

清华大学生数科技：从波形到隐空间，AudioLBM引领音频超分新范式

💡 原文中文，约2600字，阅读约需7分钟。

📝

内容提要

清华大学与生数科技合作开发了音频超分辨率模型AudioLBM，能够将低采样率音频提升至192 kHz，显著改善音质。该模型基于桥类生成模型，采用隐空间建模，提升了音频生成的效率与质量，推动了音频超分领域的发展。

🎯

🔎

音频超分辨率技术在多个领域具有广泛应用潜力，包括老旧录音修复、语音通信增强和音乐制作等。随着AudioLBM的推出，音频质量的提升将为用户带来更清晰的听觉体验，尤其在高保真音频需求日益增长的背景下，市场前景值得关注。

音频超分辨率面临的主要挑战是高频细节的损失。AudioLBM通过引入频率感知机制和级联桥类模型，有效提升了音频生成的质量和效率。这种创新方法不仅解决了高分辨率数据稀缺的问题，还为未来的音频生成技术提供了新的思路。

与OpenAI的Sora 2模型相比，AudioLBM在音频超分辨率领域实现了更高的采样率（192 kHz），展现出更强的通用性和适应性。尽管Sora 2在96 kHz音频生成上设立了标杆，但AudioLBM的多功能框架可能在未来的应用中占据更重要的位置。

❓

AudioLBM模型能够将低采样率音频提升至192 kHz，显著改善音质。

他们开发了音频超分辨率模型AudioLBM和轻量化语音波形超分模型Bridge-SR。

AudioLBM采用隐空间建模和频率感知机制，提升了音频生成的效率与质量。

Bridge-SR首次将薛定谔桥模型引入语音超分任务，实现高效、高保真的语音超分。

AudioLBM在Any-to-48kHz超分任务上取得新的SOTA表现，显著提升通用性。

AudioLBM通过构建低分辨率到高分辨率的隐变量桥接生成过程，实现通用音频超分。

🏷️