本研究提出了一种新的自监督正样本采样技术(SSPS),有效克服了传统说话人验证方法的局限性。SSPS显著提高了验证性能,SimCLR-SSPS的错误率降低了58%,与DINO-SSPS表现相当。
迭代自训练(IPL)通过改进模型生成伪标签,提升说话人表示质量。研究表明,简单的i-vector生成模型足以启动IPL过程,尽管初始模型较弱,但仍能达到与最先进方法相媲美的说话人验证性能。
本文探讨了多种语音识别和说话人验证技术,包括基于i-vector的得分融合、注意力机制、动态卷积核和隐私保护方法。研究表明,改进模型和利用音素信息可以有效提高识别性能并保护语音内容隐私。
本文提出了一种压缩学习框架,通过限制集估计模型参数,成功应用于高斯混合模型和说话人验证任务。研究开发了新的随机投影矩阵技术,提供了降维性能的确切表达式,适用于多种机器学习任务。该框架在压缩PCA、聚类和高斯混合建模中得到验证,并探讨了控制广义误差的描绘尺寸。
本文提出了一种高效的适配器框架,通过在自监督语音模型中插入轻量级模块,适应说话人验证任务。实验表明,该框架在更新5%参数的情况下,性能超越微调和其他迁移学习方法。此外,研究还探讨了无监督噪音建模和细粒度语调建模,以提升语音合成的可控性。
本文探讨了提高自动说话人验证系统的欺骗稳健性,采用概率线性判别分析和无监督领域适应技术。研究表明,在逻辑和物理接近情境下,系统性能显著提升,尤其在重放音频攻击中。还介绍了基于神经网络的说话者建模和对抗多任务学习等方法,以增强语音识别系统的性能。
本文提出了一种动态交叉注意力(DCA)模型,能够根据音频与视觉模态的互补关系动态选择关注特性。该模型在情感识别和说话人验证等跨模态任务中表现优异,并在视频字幕和音乐视频检索等领域取得了最新成果。
本文探讨了通过跨模态联合注意力提升说话人验证性能的方法,提出了动态交叉注意力模型,结合音频和视觉模态,实验证明其在多个任务中优于现有技术,显示了多模态融合在音视频识别和事件定位等领域的有效性。
本文介绍了一种分解的分层变分自动编码器,能够无监督地学习序列数据的分离和可解释的表征。该模型在转换说话人或语言内容以及说话人验证和自动语音识别任务中优于基线模型。
完成下面两步后,将自动完成登录并继续当前操作。