多头自注意力中的时间通道建模用于合成语音检测

使用 Transformer 模型，通过引入 Temporal-Channel Modeling（TCM）模块来增强 multi-head self-attention（MHSA）对于捕捉时域 - 频域依赖关系的能力，以提升合成语音检测效果。在 ASVspoof 2021 数据集上进行的实验表明，仅使用 0.03M 额外参数的 TCM 模块，在等误拒曲线（EER）指标上超过了当前最先进系统...

本文介绍了一种基于历史序列预测未来序列的时空预测学习方法，通过引入三元注意力变换器，取代传统的循环单元，并对时空和通道维度中的自注意力机制进行深入探索，提高了预测质量。实验证明该方法在多种场景下性能超过了现有方法，达到了最先进水平。