量子位 ·

AI说书媲美真人！豆包语音大模型升级长上下文理解

💡 原文中文，约1500字，阅读约需4分钟。

📝

内容提要

豆包语音模型升级后，在小说演播中表现优异，CMOS评分超过90%。新技术实现端到端合成，无需标签，提升音质和情感表达，适用于多种有声书，未来将继续探索更优质的听书体验。

🎯

🔎

豆包语音模型的端到端合成技术，省去了传统模型对标签的依赖，使得小说演播的音质和情感表达更为自然。这一技术的成功应用，不仅提升了听书体验，也为未来的有声书市场开辟了新的可能性，尤其是在多角色演绎和情感表达方面。

尽管豆包语音模型在CMOS评分上表现优异，但市场上仍存在多种语音合成技术。如何在保证音质的同时，进一步提升模型的多样性和适应性，将是豆包团队面临的重要挑战。此外，用户对有声书内容的需求变化也可能影响技术的持续发展。

豆包语音模型的优化不仅在技术上取得突破，也直接提升了用户的听书体验。通过对长文本的理解和情感的精准表达，用户能够更好地沉浸在故事情节中。这种体验的提升，可能会吸引更多用户选择有声书作为阅读的替代品。

❓

豆包语音模型在小说演播中的CMOS评分超过90%。

豆包语音模型实现端到端合成，无需额外标签，而传统模型需要提前标注对话、情感和角色。

通过对数据进行章节级别处理，融合音素、音调、韵律信息，并加入上下文信息，提升语音一致性和语义理解。

豆包语音模型已上线番茄小说，涵盖历史、悬疑、灵异、都市、脑洞、科幻等热门书目类型。

豆包语音模型基于改进的Seed-TTS技术，包含Speech Tokenizer、Autoregressive Transformer、Diffusion Model和Acoustic Vocoder等模块。

未来豆包语音模型将继续探索科技与业务场景的结合，追求更极致的听书体验。

🏷️