量子位 ·

4步出声，单卡0.24秒！Noiz AI联合港科大清华，开源音频生成大模型

💡 原文中文，约2000字，阅读约需5分钟。

📝

内容提要

Noiz AI与香港科技大学、清华大学联合推出AudioX-Turbo音频生成模型，解决了生成速度慢和控制不精确的问题。该模型通过分布匹配蒸馏技术，将生成过程从50-200步缩减至4步，显著提升音质和实时生成能力。AudioX-Turbo的开源代码和数据集将推动音频生成技术的发展，应用于互动剧配音和实时音效等领域。

🎯

关键要点

Noiz AI与香港科技大学、清华大学联合推出AudioX-Turbo音频生成模型，旨在解决生成速度慢和控制不精确的问题。
AudioX-Turbo通过分布匹配蒸馏技术，将生成过程从50-200步缩减至4步，显著提升音质和实时生成能力。
该模型使用920万量级的“强指令”语料，能够更精确地理解和生成音频内容。
AudioX-Turbo在核心音质指标上超越了许多需要50-200步的基线模型，展示了其高效性和准确性。
所有训练代码及模型权重均已开源，推动音频生成技术的发展，应用于互动剧配音和实时音效等领域。

🔎

延伸解读

音频生成技术的突破

AudioX-Turbo模型通过分布匹配蒸馏技术，将音频生成的步骤从50-200步缩减至仅4步。这一创新显著提高了生成速度和音质，意味着实时音频生成的应用场景将大幅扩展，尤其是在互动剧和游戏等领域。

开源的意义

Noiz AI与港科大、清华大学的合作使得AudioX-Turbo的所有训练代码和模型权重开源。这不仅促进了音频生成技术的进一步发展，也为研究人员和开发者提供了宝贵的资源，推动了整个行业的创新。

模型的精确控制能力

AudioX-Turbo在处理音频生成时，能够更精确地理解和执行复杂指令。这一能力的提升源于使用了920万量级的“强指令”语料，使得模型在生成音频时能够更好地遵循时间戳和事件顺序，提升了用户体验。

❓

延伸问答

AudioX-Turbo模型的主要优势是什么？

AudioX-Turbo模型通过分布匹配蒸馏技术将生成过程从50-200步缩减至4步，显著提升了音质和实时生成能力。

AudioX-Turbo是如何提高生成速度的？

该模型通过分布匹配蒸馏和对抗蒸馏技术，将生成步骤大幅减少，从而加快了生成速度。

AudioX-Turbo的开源内容包括哪些？

所有训练代码、模型权重和数据集均已开源，推动音频生成技术的发展。

AudioX-Turbo在音质方面的表现如何？

在核心音质指标上，AudioX-Turbo超越了许多需要50-200步的基线模型，表现出色。

该模型的应用领域有哪些？

AudioX-Turbo可应用于互动剧配音、实时音效生成和AI直播伴奏等领域。

AudioX-Turbo如何处理多模态输入？

该模型采用Multimodal Diffusion Transformer作为骨架，能够处理多种模态输入。

🏷️