小红花·文摘 - 小红花技术领袖俱乐部

本研究提出FMSD-TTS框架，针对藏语低资源问题，通过少量音频和方言标签生成方言语音，提升了方言表现力和说话人相似性。

FMSD-TTS: Few-Shot Multi-Speaker Multi-Dialect Text-to-Speech Synthesis for Generating U-Tsang, Amdo, and Kham Speech Datasets

BriefGPT - AI 论文速递 ·

本研究提出了VoicePrompter模型，解决了零-shot语音转换中说话人相似性不足的问题。该模型通过结合语音提示和条件流匹配，显著提升了转换的自然性和相似性，实验结果超越了现有系统，展现出重要的应用潜力。

VoicePrompter：基于语音提示和条件流匹配的鲁棒零-shot 语音转换

BriefGPT - AI 论文速递 ·

本研究提出了CTEFM-VC框架，以解决零样本语音转换中的说话人相似性和自然度问题。实验结果显示，该系统在这两个方面分别超越现有方法18.5%和7.0%。

Zero-Shot Voice Conversion Based on Content-Aware Timbre Integration Modeling and Flow Matching

BriefGPT - AI 论文速递 ·

Takin-VC是一种新颖的零-shot语音转换框架，旨在提高说话人相似性和语音自然性。该框架结合了混合内容和记忆增强的上下文感知音色建模，能够有效提取源语音内容并重建高质量音色特征。实验结果显示，Takin-VC在语音自然性和说话人相似性方面优于现有系统。

Takin-VC: Zero-shot Voice Conversion Based on Jointly Hybrid Content and Memory-Augmented Context-Aware Timbre Modeling

BriefGPT - AI 论文速递 ·