小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

本研究首次将标记修剪应用于基于ViT的音频分类模型,优化了性能与计算成本的平衡。结果显示,TopK标记修剪可减少30-40%的MAC操作,分类准确率仅下降不到1%。高强度标记对准确性贡献显著,低强度标记在音频分类中同样重要。

音频变换器中的标记修剪:优化性能和解码补丁重要性

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-02T00:00:00Z

本研究提出了一种新方法MATPAC,结合掩蔽潜在预测与无监督分类,显著提升音频分类性能。MATPAC在多个数据集上超越现有方法,展现出更强的自监督学习能力。

Masked Latent Prediction and Classification for Self-Supervised Audio Representation Learning

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-17T00:00:00Z
解锁预训练模型:开发者音频人工智能任务指南

预训练模型在音频人工智能中至关重要,能加速开发、降低成本。通过在大规模数据集上训练,它们捕捉复杂模式,适用于语音识别、音频分类和文本转语音等任务,帮助开发者快速构建高性能应用,减少对标注数据的依赖,提高效率。

解锁预训练模型:开发者音频人工智能任务指南

DEV Community
DEV Community · 2025-02-07T23:27:15Z

本研究提出了一种新的局部高阶图神经网络(LHGNN)模型,旨在克服变换器在音频处理中的局限。LHGNN结合局部邻域信息与高阶数据,显著提升音频分类和标记的性能,测试结果显示其在多个数据集上超越变换器模型,且参数更少。

Local Higher Order Graph Neural Networks for Audio Classification and Tagging

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-07T00:00:00Z

本研究探讨了多模态模型在对齐方面的局限性,提出了一种新颖的Gramian表征对齐度量(GRAM),并证明其在高维空间中有效对齐多个模态,显著提升了视频-音频-文本检索和音频-视频分类等任务的表现。

Gramian Multimodal Representation Learning and Alignment

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-16T00:00:00Z

本研究探讨了深度卷积神经网络在音频分类中的应用,比较了多种谱特征和节奏特征。结果表明,mel尺度谱图和梅尔频率倒谱系数(MFCCs)在音频分类中表现最佳,验证了深度卷积神经网络在音频领域的有效性。

Spectral and Rhythm Features in Audio Classification Based on Deep Convolutional Neural Networks

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-09T00:00:00Z

本文探讨了多种基于深度神经网络的语音识别和音频编码模型,如Seq2Seq、RNN-Transducer和CPC模型,分析了它们在不同任务中的性能。研究表明,这些模型在不依赖语言模型的情况下优于传统CTC模型,并提出了新型音频编解码器和特征表示学习方法,显著提升了音频分类和分离任务的效果。

神经语音和音频编码

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-13T00:00:00Z

本文探讨了自监督音频表示学习中的联合嵌入预测架构(JEPA),通过对音频频谱图进行上下文和目标分割,训练神经网络进行预测。研究表明,上下文选择对模型质量有显著影响,并提出了多种基于JEPA的框架(如A-JEPA、T-JEPA等),在音频分类和轨迹相似性计算中表现优异,展示了其在不同任务中的有效性和可扩展性。

Stem-JEPA:一种音乐分轨兼容性预测架构

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-05T00:00:00Z

本文提出多种无数据知识蒸馏框架,旨在提升模型性能和压缩效率。包括基于生成对抗网络的框架、音频分类的FRAMI和NLP任务的AS-DFD等,通过生成样本和潜在空间技术优化数据处理,显著提高分类准确性和数据有效性。

DDFAD:音频数据的数据集蒸馏框架

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-15T00:00:00Z

本文介绍了一种名为Rene的多模态深度学习架构,结合预训练语音识别模型和医疗记录信息,显著提升了呼吸事件检测和音频分类的性能。在ICBHI数据库上,该架构实现了23%的疾病预测分数提升,并开发了实时呼吸音辨别系统,适用于可穿戴设备。

开放性呼吸声基础模型:预训练和基准测试

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-23T00:00:00Z

本文提出了一种新方法,通过音频生成高质量图像,利用音频编码器和多模态嵌入空间进行图像操纵。该方法在零样本音频分类和语义图像分类上优于现有技术,显示了声音与图像之间的良好关系,并探讨了声音景观映射和视觉诱发音频生成,取得了显著效果提升。

声音之图像:将图像和声音合成于单一画布上

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-05-20T00:00:00Z

该论文提出了一种基于Transformer的音频分类模型,使用MFCC特征,测试精度达到95.2%。同时,研究了电力质量事件的无监督分类方法,并开发了光学传感设备以捕捉电网频率变化,介绍了基于深度学习的故障检测方法,表现出良好的性能和解释性。

基于电网频率使用多分类器融合框架的电网分类的频谱图分析

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-03-27T00:00:00Z

本文介绍了一种将视觉模型应用于音频的方法,通过预测潜在空间中的音频表示。作者提出了一种自监督学习方法,通过编码音频频谱图块并预测采样区域的表示来实现。实验证明该方法在音频和语音分类任务上具有优越性能。

A-JEPA:联合嵌入预测架构能够聆听

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-11-27T00:00:00Z

该文提出了一种利用对比学习进行多语言语音和声音表示学习的新框架,旨在实现多语言共享表示,以促进跨语言转移。该方法在情感识别、音频分类和检索基准测试中展示了最先进的性能,为获得跨语言和声学条件下的共享和泛化语音表示提供了一种有效的方法。

CLARA:音频表征获取的多语言对比学习

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-10-18T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码