小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

本研究首次将标记修剪应用于基于ViT的音频分类模型,优化了性能与计算成本的平衡。结果显示,TopK标记修剪可减少30-40%的MAC操作,分类准确率仅下降不到1%。高强度标记对准确性贡献显著,低强度标记在音频分类中同样重要。

音频变换器中的标记修剪:优化性能和解码补丁重要性

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-02T00:00:00Z

本研究提出了一种新方法MATPAC,结合掩蔽潜在预测与无监督分类,显著提升音频分类性能。MATPAC在多个数据集上超越现有方法,展现出更强的自监督学习能力。

Masked Latent Prediction and Classification for Self-Supervised Audio Representation Learning

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-17T00:00:00Z
解锁预训练模型:开发者音频人工智能任务指南

预训练模型在音频人工智能中至关重要,能加速开发、降低成本。通过在大规模数据集上训练,它们捕捉复杂模式,适用于语音识别、音频分类和文本转语音等任务,帮助开发者快速构建高性能应用,减少对标注数据的依赖,提高效率。

解锁预训练模型:开发者音频人工智能任务指南

DEV Community
DEV Community · 2025-02-07T23:27:15Z

本研究提出了一种新的局部高阶图神经网络(LHGNN)模型,旨在克服变换器在音频处理中的局限。LHGNN结合局部邻域信息与高阶数据,显著提升音频分类和标记的性能,测试结果显示其在多个数据集上超越变换器模型,且参数更少。

Local Higher Order Graph Neural Networks for Audio Classification and Tagging

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-07T00:00:00Z

本研究探讨了多模态模型在对齐方面的局限性,提出了一种新颖的Gramian表征对齐度量(GRAM),并证明其在高维空间中有效对齐多个模态,显著提升了视频-音频-文本检索和音频-视频分类等任务的表现。

Gramian Multimodal Representation Learning and Alignment

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-16T00:00:00Z

本研究通过比较多种谱特征和节奏特征,发现mel尺度谱图和MFCCs在音频分类中表现最佳,展示了深度卷积神经网络的有效性。

基于深度卷积神经网络的音频分类中的谱特征与节奏特征

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-09T00:00:00Z

本文改进了自我监督语音和音频分类模型SSAST,通过整合MAE的编码器-解码器结构,解决高掩码比率问题,加速预训练并降低内存使用。在下游任务中表现优于原模型,并评估了不同预训练策略,探讨视觉和音频领域的差异。

用于自动语音识别的卷积变分自编码器在声谱图压缩中的应用

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-03T00:00:00Z

本研究使用深度学习模型评估音频分类,比较了不同模型的性能,并强调了预训练的优势。研究发现,在小数据集背景下,CNN模型可以达到或超过Transformer模型的性能,对临床诊断有价值。

针对声带功能障碍患者的语音质量评估方法的开发,采用包含多特征的自动语音识别表示

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-22T00:00:00Z

本文提出了一种改进方法,用于自我监督语音及音频分类中的SSAST模型。通过集成MAE的编码器-解码器结构,提高了预训练速度和内存使用率,并在下游任务中表现更优。同时,评估了预训练策略,并探讨了MAE风格预训练在视觉和音频领域的不同之处。

自监督音频掩码自编码神经网络的普适音频分离

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-16T00:00:00Z

本文介绍了一种将视觉模型应用于音频的方法,通过预测潜在空间中的音频表示。作者提出了一种自监督学习方法,通过编码音频频谱图块并预测采样区域的表示来实现。实验证明该方法在音频和语音分类任务上具有优越性能。

A-JEPA:联合嵌入预测架构能够聆听

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-11-27T00:00:00Z

该文提出了一种利用对比学习进行多语言语音和声音表示学习的新框架,旨在实现多语言共享表示,以促进跨语言转移。该方法在情感识别、音频分类和检索基准测试中展示了最先进的性能,为获得跨语言和声学条件下的共享和泛化语音表示提供了一种有效的方法。

CLARA:音频表征获取的多语言对比学习

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-10-18T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码