利用神经分析和合成框架进行端到端神经歌手消声的歌曲数据清洗

💡 原文中文,约1600字,阅读约需4分钟。
📝

内容提要

本文介绍了多种基于深度学习的歌声合成和转换系统,如NANSY框架、DeepSinger和WeSinger。这些系统通过自监督训练和创新模型设计,显著提升了合成歌声的质量和自然度,适用于多种语言和歌手。同时,研究探讨了在缺乏真实数据情况下的模拟训练方法,以提高音频分离技术的性能。

🎯

关键要点

  • 提出了一种神经分析合成(NANSY)框架,具有高重构质量和可控性,采用全自监督训练方式。
  • 研究了一种用于模拟自然对话的方法,以优化端到端神经音频分离技术(EEND)的训练,实验结果表明该方法提高了EEND的性能。
  • DeepSinger是一个多语言、多歌手的歌唱声音合成系统,特点包括自动化对齐模型和基于Transformer的合成模型。
  • WeSinger是一个多歌手中文神经唱歌声合成系统,采用24 kHz LPCNet和多歌手预训练,显著提高了合成歌声的准确性和自然度。
  • N-Singer是一个韩语歌声合成系统,通过Transformer-based mel-generator和卷积网络建模语言和音高信息。
  • 提出了一种从歌词和符号旋律生成端到端的韩国歌唱声音合成系统,包含语音增强掩蔽和条件对抗训练等新颖方法。
  • 基于深度学习的歌唱声音转换方法可以直接将一个歌手的音频转换为另一个歌手的声音,使用单个CNN编码器进行训练。
  • 提出基于Conformer的端到端神经口头日记(EEND)模型,结合ASR特征和声学特征,应用于英语对话中。
  • 歌声转换算法使用目标讲话者的正常语音数据生成高质量的目标讲话者歌声,提高了系统的鲁棒性和转换效率。
  • 通过无分类器扩散引导的MakeSinger半监督训练方法,提高合成歌声质量,即使在无歌声数据的情况下也能合成TTS说话者的歌声。

延伸问答

NANSY框架的主要特点是什么?

NANSY框架具有高重构质量和可控性,采用全自监督训练方式,能够操作任意语音信号的声音、音高和速度。

DeepSinger系统的优势是什么?

DeepSinger是一个多语言、多歌手的歌唱声音合成系统,具有自动化对齐模型和基于Transformer的合成模型,支持多种语言和歌手。

WeSinger系统如何提高合成歌声的自然度?

WeSinger采用24 kHz LPCNet和多歌手预训练,通过定制模块和技术显著提高了合成歌声的准确性和自然度。

N-Singer系统是如何处理韩语发音的?

N-Singer通过Transformer-based mel-generator和卷积网络建模语言和音高信息,以实现更准确的韩语发音。

如何在缺乏真实数据的情况下优化EEND模型的训练?

可以通过模拟自然对话的方法来优化EEND模型的训练,这种方法考虑了交替对话方式。

MakeSinger半监督训练方法的优势是什么?

MakeSinger方法通过无分类器扩散引导,提高合成歌声质量,即使在无歌声数据的情况下也能合成TTS说话者的歌声。

➡️

继续阅读