量子位 ·

Soul App开源播客语音合成模型，可流畅自然多轮语音对话，支持川粤豫等多方言与副语言风格

💡 原文中文，约2700字，阅读约需7分钟。

📝

内容提要

Soul App开源了播客语音合成模型SoulX-Podcast，支持多轮对话和多方言，生成自然流畅的语音，尤其在语音克隆和长对话中表现优异，具备丰富的韵律和情感表达，推动AI与社交结合，提升用户体验。

🎯

🔎

SoulX-Podcast支持多种方言的语音合成，尤其是四川话、粤语和河南话，这对于提升地方用户的使用体验至关重要。通过方言的自然表达，用户能够感受到更强的亲切感和归属感，促进了社交互动的深度。

Soul App通过语音互动构建用户关系，推动AI与社交的结合。语音不仅是信息传递的工具，更是情感交流的媒介。SoulX-Podcast的开源将为更多开发者提供机会，探索AI在社交场景中的应用潜力，提升用户的沉浸体验。

尽管SoulX-Podcast在多轮对话和方言支持上表现出色，但在实际应用中仍面临音色一致性和角色切换的挑战。未来，团队将继续优化模型，提升语音合成的自然度和表现力，以满足更复杂的社交场景需求。

❓

SoulX-Podcast模型支持多轮对话和多方言，能够生成自然流畅的语音，尤其在语音克隆和长对话中表现优异。

SoulX-Podcast支持中、英、川、粤等多种方言，并能实现跨方言音色克隆，即使仅提供普通话的参考语音，也能生成带有方言特征的自然语音。

在零样本克隆场景中，SoulX-Podcast展现出卓越的语音生成能力，能够灵活调节韵律与节奏，保持对话的自然流畅。

SoulX-Podcast通过支持多轮对话和副语言元素的可控生成，增强合成语音的表现力，使播客语音更贴近真实交流场景。

Soul团队未来将持续聚焦语音对话合成、全双工语音通话、拟人化表达等核心交互能力的提升，探索AI与社交的更多可能。

SoulX-Podcast的开源旨在解决多轮对话和方言支持不足的问题，推动AI与社交的结合，提升用户的沉浸体验。

🏷️