本研究提出了Speech-Forensics数据集,旨在解决合成语音与真实语音的检测问题。该数据集包含真实、合成及部分伪造的语音样本。通过TEmporal Speech LocalizaTion网络(TEST),实现了真实性检测和伪造片段定位,模型性能优异,为未来研究奠定了基础。
BarkBark是一个基于变换器架构的文本转音频模型,能够生成多语言的真实语音和非语言音效,如笑声和背景音乐。它支持自动语言识别,适用于多种应用场景。Suno提供预训练模型,促进研究与商业使用。
完成下面两步后,将自动完成登录并继续当前操作。