小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

该研究提出了一种基于谷歌健康声学模型的人工智能诊断管道,利用儿童呼吸声音数据进行哮喘早期检测,准确率超过91%,适用于资源匮乏的医疗环境。

Child Asthma Detection: An AI-Driven Respiratory Sound Classifier Based on Google's HeAR Model

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-28T00:00:00Z

本研究提出了一种新方法,解决低资源语言在语音合成中的数据不足和复杂性问题。该方法结合数据优化框架和先进声学模型,支持零样本语音克隆,提升了在金融、医疗等领域的应用表现。

Empowering Global Voices: A Data-Efficient, Phoneme-Tone Adaptive Approach to High-Fidelity Speech Synthesis

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-10T00:00:00Z

本文提出了一种双层联合无监督与监督训练(BL-JUST)框架,旨在改进传统的预训练与微调策略。该方法通过同时最小化无监督与监督的损失函数,提升声学模型的通用性和任务特定性。研究表明,BL-JUST在多个数据集和架构下表现优于传统策略和半监督技术。

Bilevel Joint Unsupervised and Supervised Training Framework for Automatic Speech Recognition

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-11T00:00:00Z

本文探讨了利用单一声学模型进行多语言训练,以提升低资源语言的自动语音识别(ASR)性能。研究表明,多语言训练的ASR模型在51种语言上优于单语言训练,尤其在低资源语言方面。提出的多种模型和方法,如METHODNS和MC-SA-ASR,显著提高了多语言和低资源语音识别的效果。此外,研究介绍了MSR-86K语料库,为多语言ASR研究提供了新的数据支持。

MSA-ASR:利用冻结的ASR模型进行高效多语种说话人归属

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-27T00:00:00Z
声学模型和语言模型融合的N种方式

本文探讨了语音识别中声学模型与语言模型的融合方法,包括浅层融合、语言模型重评分、密度比和内部语言模型估计等。这些融合策略能够提高识别精度并降低计算开销。

声学模型和语言模型融合的N种方式

实时互动网
实时互动网 · 2024-11-13T04:00:45Z

本研究针对自动语音识别中的隐私和数据量问题,提出通过基因合并和SGD优化训练多个模型的新方法,提高声学模型的效率和准确性。实验结果显示,该方法优于现有技术,并利用Shapley值评估模型贡献,帮助评估数据有效性。

多数据源下的声学模型优化:合并与评估

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-21T00:00:00Z

本文探讨了自监督学习在语音处理中的应用,包括利用外部词嵌入改善声学模型、提出新型掩蔽方法提升语音识别性能,以及开发多模态语言模型进行域泛化。这些方法在不同任务上显著提升了性能,尤其在词错误率方面表现突出。

EH-MAM:用于自我监督语音表征学习的易到难的掩蔽声学建模

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-17T00:00:00Z

研究表明,在低资源环境下,通过字符级到单词级的转化可以显著提升语音翻译的速度和准确性。使用预训练的声学模型和数据增强技术,有效提高了自动语音翻译的质量。新提出的基于课程学习和互连机制的方法进一步优化了语音特征提取和翻译性能,实验结果显示BLEU分数显著提升。

揭示预训练在直接语音翻译中的作用

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-09-26T00:00:00Z

本文探讨了利用单一声学模型进行多语言训练,以提升低资源语言的自动语音识别(ASR)性能。研究表明,多语言训练的ASR模型在51种语言上优于单语言训练,尤其对低资源语言效果显著。该研究为语音识别和翻译等应用提供了新的可能性。

提升音频语言模型在低资源语言和指令遵循能力上的表现

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-09-17T00:00:00Z

本文介绍了多种基于深度学习的语音增强方法,如Deep Complex U-Net、递归变分自编码器和实时语音增强模型。这些方法在不同数据库上测试,均显示出在降噪和背景噪音处理方面的性能提升。此外,通用降噪框架D4AM有效改善了声学模型的性能,降低了错误率。

深度状态空间建模的原始语音增强

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-09-05T00:00:00Z

该论文提出了多种自然语言处理和语音识别的研究成果,包括MAD基准测试、荷兰方言发音差异识别、跨方言英语语音识别和自然语言生成多样性评估。研究表明,基于声学模型的方法优于传统方法,并提出了多模态方法以提升音频内容审核性能。

MAD Speech:语音声音多样性的度量

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-04-16T00:00:00Z

本文评估了六种语音识别器的性能,发现本地识别器更快且更新次数少。Meta的Wav2Vec模型速度最快,Mozilla的DeepSpeech模型表现稳定。研究还探讨了大型语言模型用户界面如何提升运动受限用户的文本输入速度,以及LTU-AS模型在语音识别中的应用。实验结果显示,优化的声学模型在口述历史采访中的错误率为15.6%和23.9%。

AIx 速度:利用语音识别模型的听力理解进行播放速度优化

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-03-05T00:00:00Z

通过研究神经网络的层级表达,发现声学模型的不同层次对音素识别有影响。低层隐藏层有助于信息结构,而上层更倾向于删除无用信息。

探究神经网络语音模型中自动语音识别系统所编码的信息

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-02-29T00:00:00Z

本研究提出了通用降噪框架D4AM,用于改善嘈杂环境下声学模型性能。该框架通过反向梯度调整语音增强模型,考虑回归目标作为辅助损失,直接估计权重系数,避免额外训练成本。实验结果显示,相对于嘈杂输入,该框架在Google ASR API上相对WER降低24.65%,是首个实现回归和分类目标有效组合的通用预处理器。

D4AM:用于下游声学模型的通用去噪框架

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-11-28T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码