多头自注意力中的时间通道建模用于合成语音检测
原文中文,约500字,阅读约需2分钟。发表于: 。使用 Transformer 模型,通过引入 Temporal-Channel Modeling(TCM)模块来增强 multi-head self-attention(MHSA)对于捕捉时域 - 频域依赖关系的能力,以提升合成语音检测效果。在 ASVspoof 2021 数据集上进行的实验表明,仅使用 0.03M 额外参数的 TCM 模块,在等误拒曲线(EER)指标上超过了当前最先进系统...
本文介绍了一种基于历史序列预测未来序列的时空预测学习方法,通过引入三元注意力变换器,取代传统的循环单元,并对时空和通道维度中的自注意力机制进行深入探索,提高了预测质量。实验证明该方法在多种场景下性能超过了现有方法,达到了最先进水平。