应对声源分离中的特征不平衡

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

本文提出了使用注意力特征融合的通道重新校准方法进行DeepFake Audio检测,并改进了Resnet模型的输入特征嵌入方式。经过训练,模型在Fake or Real数据集上获得了95%的测试准确度,并在使用不同的生成模型生成样本后适应该框架后,达到了90%的平均准确度。

🎯

关键要点

  • 本文研究了 DeepFake Audio 的检测方法。
  • 提出了使用注意力特征融合的通道重新校准方法进行合成语音检测。
  • 通过使用 SE 块和 LFCC/MFCC 的结合,改进了 Resnet 模型。
  • 提出了更好的输入特征嵌入方式,使简单模型在合成语音分类任务上也能良好推广。
  • 模型在 Fake or Real 数据集上经过训练后获得了 95% 的测试准确度。
  • 在使用不同生成模型生成样本后,模型达到了 90% 的平均准确度。
➡️

继续阅读