本文研究了语音信号的音色及其属性检测(vTAD)。结果表明,ECAPA-TDNN编码器在已见场景中表现优异,而FACodec编码器在未见场景中具有更好的泛化能力。
该研究提出了一种新方法AnCoGen,通过掩码自编码器分析、控制和生成语音信号,实现对说话者身份和音高等属性的精确控制,效果显著。
本研究探究了语音信号在抑郁症筛查中的实用性,发现语音是一个关键的标志物,人机交互效果优于阅读任务,深度语音特征表现优于传统声学特征。
该文介绍了一种算法,可以在语音信号中添加几乎不可察觉的扰动,欺骗自动语音识别系统。实验表明该技术可以用于最新的自动语音识别系统,也可以在未参与训练的模型上应用。
完成下面两步后,将自动完成登录并继续当前操作。