极道 ·

VoiceCraft: 文本生成任何人的语音技术

💡 原文中文，约2200字，阅读约需6分钟。

📝

内容提要

VoiceCraft是一种文本生成语音技术，能够复制、克隆和编辑语音。它在语音编辑和零样本TTS方面表现出色，能够处理不同的口音、说话风格和录音条件。VoiceCraft只需几秒钟的参考时间即可复制、克隆或编辑语音。

🎯

关键要点

VoiceCraft是一种文本生成语音技术，能够复制、克隆和编辑语音。
该技术在语音编辑和零样本TTS方面表现出色，处理不同口音、说话风格和录音条件。
VoiceCraft采用Transformer解码器架构，并引入令牌重排过程。
生成的经过编辑的语音在自然度方面与未经编辑的录音几乎没有区别。
在零样本TTS任务中，VoiceCraft优于之前的SotA模型，包括VALL-E和XTTS v2。
模型在具有挑战性的野生数据集上进行训练，表现良好。
VoiceCraft只需几秒钟的参考时间即可复制、克隆或编辑语音。
训练VoiceCraft模型需要准备话语及其文字记录、编码和转录文本等。
提供了详细的环境设置和安装步骤。
网友讨论生成的声音效果，提到生成特朗普的声音效果。

❓

延伸问答

VoiceCraft是什么技术？

VoiceCraft是一种文本生成语音技术，能够复制、克隆和编辑语音。

VoiceCraft在语音编辑方面的表现如何？

VoiceCraft在语音编辑任务中生成的经过编辑的语音在自然度方面与未经编辑的录音几乎没有区别。

VoiceCraft如何处理不同的口音和说话风格？

VoiceCraft能够处理不同的口音、说话风格和录音条件，表现优于其他模型。

训练VoiceCraft模型需要哪些准备？

训练VoiceCraft模型需要准备话语及其文字记录、编码和转录文本等。

VoiceCraft的技术架构是什么？

VoiceCraft采用Transformer解码器架构，并引入令牌重排过程。

用户对VoiceCraft生成的声音效果有什么反馈？

网友讨论生成的声音效果，提到生成特朗普的声音效果。

🏷️

标签

VoiceCraft 克隆语音复制语音文本生成语音技术编辑语音

➡️

继续阅读

WAIC 2026收官｜范式大会亮点集锦，见证AI 2.0从技术突破走向产业实践
全球首发技术路线+全域联盟双轮破局，AI for ADANES释放先进核能新质生产力
AI语音进入“表演时代”：阿里Qwen-Audio-3.0-TTS登顶全球权威榜单
细粒度标签+ 20 种方言
FlashTTS：面向实时语音对话的低时延流式语音合成 | Interspeech 2026
近年来，基于大语言模型（LLM）的文本转语音技术快速发展，基于大语言模型（LLM）的TTS方案已经在自然度、音色相似度和零样本音色克隆（zero-shot...
英国电信在皇家威尔士展览会展示了5G+网络切片技术
英国电信 (BT) 和威尔士皇家农业协会正在今年的威尔士皇家农业展上使用 5G+ 网络切片技术，以帮助支持关键任务服务、支持当地企业，并在英国最大的农业盛...
text2mermaid — 我做了一个用自然语言生成 Mermaid 图的网站：为什么做、怎么用、支持哪些图
介绍我最近做的一个小工具 text2mermaid（text2everything.vip）——用自然语言描述流程、时序、表关系、状态机等，AI 直接生成...