本研究首次将标记修剪应用于基于ViT的音频分类模型,优化了性能与计算成本的平衡。结果显示,TopK标记修剪可减少30-40%的MAC操作,分类准确率仅下降不到1%。高强度标记对准确性贡献显著,低强度标记在音频分类中同样重要。
本研究提出了一种新方法MATPAC,结合掩蔽潜在预测与无监督分类,显著提升音频分类性能。MATPAC在多个数据集上超越现有方法,展现出更强的自监督学习能力。
预训练模型在音频人工智能中至关重要,能加速开发、降低成本。通过在大规模数据集上训练,它们捕捉复杂模式,适用于语音识别、音频分类和文本转语音等任务,帮助开发者快速构建高性能应用,减少对标注数据的依赖,提高效率。
本研究提出了一种新的局部高阶图神经网络(LHGNN)模型,旨在克服变换器在音频处理中的局限。LHGNN结合局部邻域信息与高阶数据,显著提升音频分类和标记的性能,测试结果显示其在多个数据集上超越变换器模型,且参数更少。
本研究探讨了多模态模型在对齐方面的局限性,提出了一种新颖的Gramian表征对齐度量(GRAM),并证明其在高维空间中有效对齐多个模态,显著提升了视频-音频-文本检索和音频-视频分类等任务的表现。
本研究通过比较多种谱特征和节奏特征,发现mel尺度谱图和MFCCs在音频分类中表现最佳,展示了深度卷积神经网络的有效性。
本文改进了自我监督语音和音频分类模型SSAST,通过整合MAE的编码器-解码器结构,解决高掩码比率问题,加速预训练并降低内存使用。在下游任务中表现优于原模型,并评估了不同预训练策略,探讨视觉和音频领域的差异。
本研究使用深度学习模型评估音频分类,比较了不同模型的性能,并强调了预训练的优势。研究发现,在小数据集背景下,CNN模型可以达到或超过Transformer模型的性能,对临床诊断有价值。
本文提出了一种改进方法,用于自我监督语音及音频分类中的SSAST模型。通过集成MAE的编码器-解码器结构,提高了预训练速度和内存使用率,并在下游任务中表现更优。同时,评估了预训练策略,并探讨了MAE风格预训练在视觉和音频领域的不同之处。
本文介绍了一种将视觉模型应用于音频的方法,通过预测潜在空间中的音频表示。作者提出了一种自监督学习方法,通过编码音频频谱图块并预测采样区域的表示来实现。实验证明该方法在音频和语音分类任务上具有优越性能。
该文提出了一种利用对比学习进行多语言语音和声音表示学习的新框架,旨在实现多语言共享表示,以促进跨语言转移。该方法在情感识别、音频分类和检索基准测试中展示了最先进的性能,为获得跨语言和声学条件下的共享和泛化语音表示提供了一种有效的方法。
完成下面两步后,将自动完成登录并继续当前操作。