小红花·文摘 - 小红花技术领袖俱乐部

在调试小龙猫语音时遇到困难，发现千问TTS模型音色控制有限，句子间音色不稳定。明天将尝试语音克隆，若无效则考虑更换模型。实践是获取知识的关键。

Qwen TTS 研究

Andy Stewart ·

本研究提出了一种基于条件变分自编码器（CVAE）的波表合成音色控制方法，用户可以通过语义标签实时定义和调节音色，提升了调节的直观性。

Wavetable Synthesis Tone Control Based on Semantic Labels Using Conditional Variational Autoencoders

BriefGPT - AI 论文速递 ·

本研究提出了多种新型音频生成模型，如基于WaveNet的自编码器、MusicVAE、ADAs和RAVE，旨在提高音乐生成的质量和效率。这些模型通过层次化解码器和潜在空间分析，实现了音色控制、长序列建模和高质量音频合成，为音乐制作提供了重要支持。

音乐到潜在空间：用于潜在音频压缩的一致性自编码器

BriefGPT - AI 论文速递 ·

CosyVoice多语言、音色和情感控制模型，one-shot零样本语音克隆模型本地部署(Win/Mac),通义实验室开源

刘悦 ·