BriefGPT - AI 论文速递 ·

从真实到克隆歌手的识别

💡 原文中文，约1500字，阅读约需4分钟。

📝

内容提要

本文研究了歌声深度伪造检测，创建了名为SingFake的数据集，包含真实与伪造歌曲。评估了多种区分真实与合成语音的方法，并提出基于自监督学习的歌手身份编码器框架，提升了歌手识别的准确性。同时探讨了声音伪造的社会挑战，强调声音编辑的重要性，并提出新的挑战数据集和检测系统。

🎯

关键要点

提出了歌声深度伪造检测任务，创建了第一个真实数据集SingFake，包含40位歌手5种语言的28.93小时真实歌曲和29.40小时深度伪造歌曲片段。
评估了四个最先进的口语对抗系统，发现相对于在口语测试数据上训练，在SingFake上训练有显著改进。
提出了一个框架，通过自监督学习技术和数据增强训练歌手身份编码器，以提取适用于各种歌唱相关任务的表示。
在一个包含18位著名歌手的300首越南歌曲的数据集上，采用新方法识别歌手姓名，获得92.84%的准确率。
探讨了声音伪造对社会的挑战，主张从传统的二元范式转变为关注声音编辑，提出了六个类别和新的挑战数据集。
提出了一种轻量级的方法来学习健壮的音频表示，减轻从真实世界音频中获取大规模数据的负担，并在标准音频分类基准上取得强大表现。

❓

延伸问答

SingFake数据集包含哪些内容？

SingFake数据集包含40位歌手的28.93小时真实歌曲和29.40小时深度伪造歌曲片段。

如何提高歌手识别的准确性？

通过自监督学习技术和数据增强训练歌手身份编码器，可以提取适用于各种歌唱相关任务的表示，从而提高识别准确性。

声音伪造对社会有哪些挑战？

声音伪造带来了重大社会挑战，尤其是需要从传统的二元范式转变为关注声音编辑，涉及修改、过滤、剪辑等。

在越南歌曲数据集上，识别歌手的准确率是多少？

在包含18位著名歌手的300首越南歌曲的数据集上，识别歌手的准确率达到了92.84%。

文章中提到的轻量级音频表示学习方法有什么优势？

这种轻量级方法可以减轻从真实世界音频中获取大规模数据的负担，并在标准音频分类基准上取得强大表现。

如何评估真实与合成语音的区分方法？

文章评估了四个最先进的口语对抗系统，发现相对于在口语测试数据上训练，在SingFake上训练有显著改进。

🏷️

标签

数据集检测歌声伪造社会挑战自监督学习

➡️

继续阅读

阿里团队自研 AOQ 协议，为多模态 AI 构建确定性传输底座
随着大模型向多模态全面演进，AI 应用正从云端走向终端。端侧公网“最后一公里”的网络波动与 AI 推理所需要海量数据的实时传输需求之间，存在较大的冲突，会...
台积电拟于2027年最高提价10%；苹果拟推出设备租赁计划以提振销量；2026年《财富》中国500强发布
（全球TMT 2026年07月22日讯）今日要点：台积电拟于2027年最高提价10%；三星电子规划未来5年在韩 […]
让 AI 快速「读懂」你的代码仓：Joy-Code-Graph 云端图谱服务的三次进化
代码知识图谱不是要取代 AI 的智能，而是要补齐它对代码全局关系的认知盲区。当 AI 能一眼看清「谁调用了谁、改动会波及哪里」，它写出的代码才真正靠谱；当...
ResULIC：语义残差编码与压缩感知扩散的超低码率图像压缩 | ICML 2025
图像压缩的核心目标是在尽可能低的码率下保留尽可能高的视觉质量。近年来，学习式图像压缩方法在客观指标和主观感知质量上取得了显著进展，但在极低码率场景下仍面临...
业内首款超算+智算的大规模计算底座，在WAIC上我们找到了
一颗“不走寻常路”的芯
火狐浏览器原生容器功能预览版上线可以隔离工作/生活账号并阻止跨站追踪
#软件资讯火狐浏览器原生账户容器功能预览版上线，可以通过容器隔离工作和生活账号并阻止跨容器、跨站点追踪。国内浏览器通常将容器功能称为小号窗口，也就是可以...