四分之一啁啾谱包络在耳语与正常语音分类中的应用
原文中文,约400字,阅读约需1分钟。发表于: 。本研究解决了耳语语音与正常语音分类在噪声环境下性能下降的问题。提出了一种名为四分之一啁啾谱包络的新特征,该特征结合了啁啾谱和四分之一谱包络,能够在一维卷积神经网络上有效区分耳语和正常语音。实验表明,该系统在白噪声干扰下的性能优于现有技术。
最近,研究发现大型语音基础模型Whisper容易受到对抗攻击。研究人员提出了一种简单有效的方法,通过添加特殊令牌来“静音”模型,使其只转录令牌而忽略语音。实验证明,通用的对抗音频片段可以成功地使Whisper模型在97%以上的语音样本中静音。这项研究证明了Whisper模型对“静音”对抗性攻击的脆弱性,并指出这种攻击可能有风险和潜在益处。