HyperAI超神经 ·

在线教程丨石矶娘娘秒变「川渝妹子」？Step-Audio-TTS实现语音克隆/音乐合成/语音合成三合一

💡 原文中文，约1900字，阅读约需5分钟。

📝

内容提要

阶跃星辰与吉利汽车集团合作开源Step-Audio-TTS-3B模型，能够精准演绎方言特色，支持RAP和哼唱生成，填补音乐语音合成的空白。该模型基于大规模数据集训练，现已上线HyperAI官网，提供语音合成、音乐合成和语音克隆功能。

🎯

🔎

Step-Audio-TTS-3B 模型在方言语音合成方面的表现尤为突出，能够精准捕捉地方语言的韵律与语气。这一特性不仅提升了语音合成的自然度，也为地方文化的传播提供了新的可能性，用户可以更好地体验和使用地方方言。

该模型首次实现了 RAP 和哼唱的生成，填补了音乐语音合成的空白。用户无需专业技能即可快速生成高质量的音乐内容，这为音乐创作带来了便利，尤其适合独立音乐人和创作者探索新的创作方式。

用户在使用 Step-Audio-TTS-3B 的 API 功能前需进行实名认证，这可能会影响部分用户的使用体验。尽管实名认证是为了保障安全，但也可能使得一些潜在用户因流程复杂而放弃使用。

❓

该模型提供语音合成、音乐合成和语音克隆三大功能。

用户需在Demo页面选择语音克隆，上传参考音频并输入文本，然后点击生成克隆语音。

该模型能够精准演绎地方语言的特色，支持多种方言的语音合成。

用户需进行实名认证后，登录HyperAI官网，在教程页面选择Step-Audio-TTS-3B进行操作。

该功能支持RAP和哼唱生成，用户可以选择不同音色进行生成。

用户可以迅速生成节奏精准、flow流畅的RAP人声，激发创作潜力。

🏷️