BanglaFake:构建和评估专门的孟加拉语深伪音频数据集
📝
内容提要
本研究针对低资源语言孟加拉语在深伪音频检测中面临的数据集有限和声学特征微妙等问题,提出了BanglaFake数据集,包含12,260个真实和13,260个深伪语句。通过最新的文本转语音模型生成合成语音,并利用初步评估结果表明该数据集在推进孟加拉语深伪检测方面具有重要价值。
➡️
本研究针对低资源语言孟加拉语在深伪音频检测中面临的数据集有限和声学特征微妙等问题,提出了BanglaFake数据集,包含12,260个真实和13,260个深伪语句。通过最新的文本转语音模型生成合成语音,并利用初步评估结果表明该数据集在推进孟加拉语深伪检测方面具有重要价值。