BriefGPT - AI 论文速递 ·

受控歌声深度伪造检测的语音基础模型集成

💡 原文中文，约1300字，阅读约需4分钟。

📝

内容提要

本文介绍了基于扩散概率模型的声学模型DiffSinger，提升了歌唱合成的稳定性和生成能力。同时，研究探讨了声音DeepFake检测，提出使用Whisper模型提高检测准确性，并创建了包含真实和伪造歌曲的SingFake数据集，以评估深度伪造检测的挑战与进展。

🎯

❓

DiffSinger模型基于扩散概率模型，提升了歌唱合成的稳定性和生成能力，表现优于传统算法。

Whisper模型被用作前端增强声音DeepFake检测的准确性，实验证明其效果显著。

SingFake数据集包含40位歌手的28.93小时真实歌曲和29.40小时深度伪造歌曲片段，用于评估深度伪造检测的挑战。

通过利用openSMILE库中的简单特征，可以显著提高声音真实性检测的准确性，显示出良好的泛化能力。

SVDD挑战旨在推动真实和深度伪造歌唱声音的研究，专注于实验室控制和真实场景下的录制。

歌曲专用模型在检测伪造歌曲时表现更佳，相比于训练于语音的模型，平均等误差率降低了约38.58%。

🏷️