本研究首次将标记修剪应用于基于ViT的音频分类模型,优化了性能与计算成本的平衡。结果显示,TopK标记修剪可减少30-40%的MAC操作,分类准确率仅下降不到1%。高强度标记对准确性贡献显著,低强度标记在音频分类中同样重要。
本研究提出了一种新方法MATPAC,结合掩蔽潜在预测与无监督分类,显著提升音频分类性能。MATPAC在多个数据集上超越现有方法,展现出更强的自监督学习能力。
预训练模型在音频人工智能中至关重要,能加速开发、降低成本。通过在大规模数据集上训练,它们捕捉复杂模式,适用于语音识别、音频分类和文本转语音等任务,帮助开发者快速构建高性能应用,减少对标注数据的依赖,提高效率。
本研究提出了一种新的局部高阶图神经网络(LHGNN)模型,旨在克服变换器在音频处理中的局限。LHGNN结合局部邻域信息与高阶数据,显著提升音频分类和标记的性能,测试结果显示其在多个数据集上超越变换器模型,且参数更少。
本研究探讨了多模态模型在对齐方面的局限性,提出了一种新颖的Gramian表征对齐度量(GRAM),并证明其在高维空间中有效对齐多个模态,显著提升了视频-音频-文本检索和音频-视频分类等任务的表现。
本研究探讨了深度卷积神经网络在音频分类中的应用,比较了多种谱特征和节奏特征。结果表明,mel尺度谱图和梅尔频率倒谱系数(MFCCs)在音频分类中表现最佳,验证了深度卷积神经网络在音频领域的有效性。
本文探讨了多种基于深度神经网络的语音识别和音频编码模型,如Seq2Seq、RNN-Transducer和CPC模型,分析了它们在不同任务中的性能。研究表明,这些模型在不依赖语言模型的情况下优于传统CTC模型,并提出了新型音频编解码器和特征表示学习方法,显著提升了音频分类和分离任务的效果。
本文探讨了自监督音频表示学习中的联合嵌入预测架构(JEPA),通过对音频频谱图进行上下文和目标分割,训练神经网络进行预测。研究表明,上下文选择对模型质量有显著影响,并提出了多种基于JEPA的框架(如A-JEPA、T-JEPA等),在音频分类和轨迹相似性计算中表现优异,展示了其在不同任务中的有效性和可扩展性。
本文提出多种无数据知识蒸馏框架,旨在提升模型性能和压缩效率。包括基于生成对抗网络的框架、音频分类的FRAMI和NLP任务的AS-DFD等,通过生成样本和潜在空间技术优化数据处理,显著提高分类准确性和数据有效性。
本文介绍了一种名为Rene的多模态深度学习架构,结合预训练语音识别模型和医疗记录信息,显著提升了呼吸事件检测和音频分类的性能。在ICBHI数据库上,该架构实现了23%的疾病预测分数提升,并开发了实时呼吸音辨别系统,适用于可穿戴设备。
本文提出了一种新方法,通过音频生成高质量图像,利用音频编码器和多模态嵌入空间进行图像操纵。该方法在零样本音频分类和语义图像分类上优于现有技术,显示了声音与图像之间的良好关系,并探讨了声音景观映射和视觉诱发音频生成,取得了显著效果提升。
该论文提出了一种基于Transformer的音频分类模型,使用MFCC特征,测试精度达到95.2%。同时,研究了电力质量事件的无监督分类方法,并开发了光学传感设备以捕捉电网频率变化,介绍了基于深度学习的故障检测方法,表现出良好的性能和解释性。
本文介绍了一种将视觉模型应用于音频的方法,通过预测潜在空间中的音频表示。作者提出了一种自监督学习方法,通过编码音频频谱图块并预测采样区域的表示来实现。实验证明该方法在音频和语音分类任务上具有优越性能。
该文提出了一种利用对比学习进行多语言语音和声音表示学习的新框架,旨在实现多语言共享表示,以促进跨语言转移。该方法在情感识别、音频分类和检索基准测试中展示了最先进的性能,为获得跨语言和声学条件下的共享和泛化语音表示提供了一种有效的方法。
完成下面两步后,将自动完成登录并继续当前操作。