从真实到克隆歌手的识别

💡 原文中文,约1500字,阅读约需4分钟。
📝

内容提要

本文研究了歌声深度伪造检测,创建了名为SingFake的数据集,包含真实与伪造歌曲。评估了多种区分真实与合成语音的方法,并提出基于自监督学习的歌手身份编码器框架,提升了歌手识别的准确性。同时探讨了声音伪造的社会挑战,强调声音编辑的重要性,并提出新的挑战数据集和检测系统。

🎯

关键要点

  • 提出了歌声深度伪造检测任务,创建了第一个真实数据集SingFake,包含40位歌手5种语言的28.93小时真实歌曲和29.40小时深度伪造歌曲片段。
  • 评估了四个最先进的口语对抗系统,发现相对于在口语测试数据上训练,在SingFake上训练有显著改进。
  • 提出了一个框架,通过自监督学习技术和数据增强训练歌手身份编码器,以提取适用于各种歌唱相关任务的表示。
  • 在一个包含18位著名歌手的300首越南歌曲的数据集上,采用新方法识别歌手姓名,获得92.84%的准确率。
  • 探讨了声音伪造对社会的挑战,主张从传统的二元范式转变为关注声音编辑,提出了六个类别和新的挑战数据集。
  • 提出了一种轻量级的方法来学习健壮的音频表示,减轻从真实世界音频中获取大规模数据的负担,并在标准音频分类基准上取得强大表现。

延伸问答

SingFake数据集包含哪些内容?

SingFake数据集包含40位歌手的28.93小时真实歌曲和29.40小时深度伪造歌曲片段。

如何提高歌手识别的准确性?

通过自监督学习技术和数据增强训练歌手身份编码器,可以提取适用于各种歌唱相关任务的表示,从而提高识别准确性。

声音伪造对社会有哪些挑战?

声音伪造带来了重大社会挑战,尤其是需要从传统的二元范式转变为关注声音编辑,涉及修改、过滤、剪辑等。

在越南歌曲数据集上,识别歌手的准确率是多少?

在包含18位著名歌手的300首越南歌曲的数据集上,识别歌手的准确率达到了92.84%。

文章中提到的轻量级音频表示学习方法有什么优势?

这种轻量级方法可以减轻从真实世界音频中获取大规模数据的负担,并在标准音频分类基准上取得强大表现。

如何评估真实与合成语音的区分方法?

文章评估了四个最先进的口语对抗系统,发现相对于在口语测试数据上训练,在SingFake上训练有显著改进。

➡️

继续阅读