美团技术团队 ·

美团开源LongCat-Audio-Codec，高效语音编解码器助力实时交互落地

💡 原文中文，约3400字，阅读约需8分钟。

📝

内容提要

美团LongCat团队开源了LongCat-Audio-Codec，解决了语音大语言模型在Token化中的难题。该方案通过双Token并行提取、低延迟解码和超低比特率高保真设计，实现了高效音频处理，提升了语音理解与生成质量，降低了技术门槛，丰富了应用场景，推动了语音智能系统的发展。

🎯

🔎

LongCat-Audio-Codec通过双Token并行提取和低延迟解码等创新设计，解决了语音大语言模型在实时交互中的关键问题。这种技术不仅提升了语音理解和生成的质量，还降低了开发门槛，适用于智能音箱、车载助手等多种场景，预示着语音智能系统的广泛应用前景。

在低比特率下，LongCat-Audio-Codec的可懂性和音质表现优于同类方案，尤其在0.43-0.87kbps区间内，词错误率和语音质量感知评估均显示出显著优势。这使得该编解码器在资源受限的环境中仍能保持高效性能，适合多样化的应用需求。

LongCat-Audio-Codec的开源发布为语音处理领域带来了新的机遇，降低了技术门槛，促进了技术生态的完善。开发者可以基于这一工具链快速构建自己的语音大模型，推动语音智能系统的快速发展，形成良性循环。

❓

LongCat-Audio-Codec提供了一套Token生成器与还原器工具链，实现从信号输入到输出的全链路音频处理。

通过语义-声学双Token并行提取机制，兼顾理解与生成，提升重构质量。

在低比特率区间，LongCat-Audio-Codec的可懂性和音质均优于同类方案，表现出色。

低延迟流式解码器将解码延迟控制在百毫秒级，显著提升了实时交互的响应速度。

降低技术门槛、丰富应用场景、完善技术生态，为开发者提供了一站式解决方案。

未来将持续优化多语言语音处理和长音频建模，期待行业突破。

🏷️