美团技术团队 ·

突破零样本 TTS 音色克隆上限：LongCat-AudioDiT 的声音克隆艺术

💡 原文中文，约2900字，阅读约需7分钟。

📝

内容提要

美团LongCat团队发布了LongCat-AudioDiT模型，采用全新的端到端文本转语音技术，减少信息损失。该模型在Seed基准测试中表现优异，取得最佳的说话人相似度和可懂度，证明了在波形潜空间生成语音的有效性。LongCat-AudioDiT以简化架构和高保真合成为目标，已开源，期待推动语音生成技术的发展。

🎯

关键要点

美团LongCat团队发布了LongCat-AudioDiT模型，采用全新的端到端文本转语音技术，减少信息损失。
LongCat-AudioDiT模型在Seed基准测试中表现优异，取得最佳的说话人相似度和可懂度。
该模型直接在波形潜空间进行文本转语音，避免了传统方法中的信息损失与误差累积。
LongCat-AudioDiT通过识别并纠正训练-推理不匹配问题，提升了语音生成质量。
模型在Seed-ZH测试集的说话人相似度指标提升至0.818，超过了多个知名模型。
LongCat-AudioDiT以简化架构和高保真合成为目标，已开源，期待推动语音生成技术的发展。

🔎

延伸解读

技术创新的意义

LongCat-AudioDiT模型的发布标志着文本转语音技术的一次重大突破。通过直接在波形潜空间进行生成，该模型有效减少了信息损失，提升了语音的自然度和个性化。这种创新不仅提高了语音合成的质量，也为未来的语音生成技术提供了新的研究方向。

与传统模型的对比

传统的文本转语音系统通常依赖多阶段的处理流程，容易导致信息损失和音质下降。而LongCat-AudioDiT通过简化架构，直接生成波形，避免了这些问题。其在Seed基准测试中的优异表现，显示出其在说话人相似度和可懂度方面的竞争力，超越了多个知名模型。

开源的潜在影响

LongCat-AudioDiT的开源将为开发者和研究者提供宝贵的资源，促进语音生成技术的进一步发展。开源不仅能加速技术的普及，还能激发社区的创新，推动更自然和富有表现力的语音交互体验的实现。

❓

延伸问答

LongCat-AudioDiT模型的主要创新点是什么？

LongCat-AudioDiT模型的主要创新点在于直接在波形潜空间进行文本转语音，避免了传统方法中的信息损失与误差累积，同时通过自适应投影引导提升了语音生成质量。

LongCat-AudioDiT在Seed基准测试中的表现如何？

LongCat-AudioDiT在Seed基准测试中表现优异，取得了最佳的说话人相似度0.818和可懂度，超过了多个知名模型。

LongCat-AudioDiT是如何解决训练-推理不匹配问题的？

LongCat-AudioDiT通过提出双重约束机制，解决了训练-推理不匹配问题，确保生成语音的音色稳定性。

LongCat-AudioDiT的架构设计有什么优势？

LongCat-AudioDiT的架构设计简化，采用波形潜空间建模，能够有效减少信息损失，提升语音合成的高保真度和个性化细节。

LongCat-AudioDiT的开源情况如何？

LongCat-AudioDiT模型（1B/3.5B）已全部开源，旨在推动语音生成技术的发展。

LongCat-AudioDiT与传统TTS系统相比有什么不同？

LongCat-AudioDiT与传统TTS系统不同之处在于它跳过了中间的声学特征预测，直接在波形潜空间生成语音，减少了误差累积。

🏷️