机器之心 ·

声音比真人还像真人的Maya，背后模型开源了！跨越语音恐怖谷

💡 原文中文，约2200字，阅读约需6分钟。

📝

内容提要

语音恐怖谷指AI合成语音接近人类但仍显不自然，导致用户不适。Sesame推出的语音助手Maya通过情感智能和高保真技术克服了这一挑战。其开源模型CSM-1B可生成多种声音，但缺乏安全防护措施，需谨慎使用。

🎯

🔎

语音恐怖谷效应是AI语音合成技术中的一个重要挑战，指的是当合成语音接近人类但又显得不自然时，反而会引发用户的不适感。Sesame的Maya通过情感智能和高保真技术成功克服了这一问题，为用户提供了更自然的语音交互体验。

Sesame开源的CSM-1B模型虽然支持商业用途，但缺乏有效的安全防护措施。开发者和用户需谨慎使用，避免在未经同意的情况下模仿他人声音或创建误导性内容，这可能导致欺诈和滥用行为。

CSM-1B模型在非英语语言的表现较差，且训练数据来源未公开，可能存在数据污染的问题。这意味着在多语言环境中使用时，用户可能会遇到语音合成质量不佳的情况，需对此有所了解。

❓

语音恐怖谷效应是指AI合成语音接近人类但仍显不自然，导致用户不适的现象。

Maya通过情感智能、上下文记忆和高保真语音生成技术，成功克服了语音恐怖谷效应。

CSM-1B模型拥有10亿参数，采用Apache 2.0许可证，支持商业用途，并能生成多种声音。

Sesame使用了Meta的Llama系列模型作为CSM-1B的骨干架构，并搭配音频解码器组件。

CSM-1B模型对非英语语言的表现不佳，可能受到训练数据污染的影响。

Sesame表示CSM-1B模型缺乏真正的安全防护措施，仅敦促用户不要滥用该模型。

🏷️