刘悦 ·

栩栩如生,音色克隆,Bert-vits2文字转语音打造鬼畜视频实践(Python3.10)

💡 原文中文，约10100字，阅读约需25分钟。

📝

内容提要

该文介绍了使用Bert-vits2进行TTS的训练和推理过程，包括语音标注、文件转换和模型训练。作者还分享了使用Bert-vits2打造的鬼畜视频。

🎯

关键要点

Bert-vits2是当前最强大的TTS免费开源项目，结合了Bert大模型和Vits项目。
BERT通过无监督预训练学习通用语言表示，采用双向上下文信息建模。
BERT的模型结构基于Transformer，包含多个编码器层和多头自注意力机制。
BERT在自然语言处理领域产生了重大影响，成为许多研究和应用的基础。
使用Bert-vits2项目克隆渣渣辉和刘青云的声音，制作鬼畜视频。
需要提取原版音频素材并进行声音处理，包括降噪和切片。
使用开源库whisper对切片语音进行标注，生成对应的文本和音标。
将标注好的文件转换为bert模型可读文件，准备进行模型训练。
修改config.json中的参数以适应本地显存，开始训练模型。
通过tensorboard监控训练过程，确保模型收敛。
使用训练好的模型生成语音，制作最终的鬼畜视频并上传至Youtube和B站。

🏷️

标签

Bert-vits2 TTS bert 模型训练语音标注鬼畜视频

➡️

继续阅读

实时视频通信：已改变了成年人在线交友的方式
数字社交平台的重心，已经从"维护已有关系"转向了"建立全新连接"。直播视频平台上的核心预期，就是你在这里认识新的人。这是对...
AOMedia 视频编解码器工作组宣布 Libaom v3.14 “Pinkie Pie” 版本发布
AOMedia 视频编解码器工作组宣布 libaom v3.14（又名“Pinkie Pie”）现已发布。此版本包含了 libaom 团队自上次发布功能版...
LLMs 改变语音合规性，超越通话录音
语音合规性已不再局限于基本的录音和关键词警报。成熟的 AI 工具现在不仅能帮助企业存储对话内容，还能帮助他们理解对话内容。多年来，合规团队一直依赖人工核...
Transform any place with Nano Banana in Google Earth
A hero image with example queries is shown.
7 Machine Learning Algorithms That Still Matter
Discover 7 essential machine learning algorithms that every data scientist sh...
AI 时代，如何保持个人与团队的顶尖竞争力