小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
【AI入门课程系列】4、AI 的耳朵在哪里?—— 语音识别

AI 的语音识别通过三个步骤实现:将声音转为数字、拆分音素、利用概率模型推测含义。AI 通过麦克风捕捉声波,算法解析音频,从而理解人类语言。

【AI入门课程系列】4、AI 的耳朵在哪里?—— 语音识别

分享AI芯片开发经验
分享AI芯片开发经验 · 2025-09-19T08:31:45Z
语音搜索错误纠正的音素增强判别重评分

本文提出了一种针对E2E自动语音识别模型在新电影标题识别中不足的音素纠正方法。该方法通过音素搜索生成替代选项,并结合ASR模型的识别结果,显著提高了识别准确率,错误率降低了4.4%至7.6%。

语音搜索错误纠正的音素增强判别重评分

Apple Machine Learning Research
Apple Machine Learning Research · 2025-06-27T00:00:00Z

本研究提出FluentLip,一种基于音素的双阶段音频驱动嘴唇合成方法,旨在提高嘴唇可懂度和视频流畅性。通过结合音素提取和光流一致性损失,显著提升了嘴唇运动的同步性和自然度,实验结果表明其在流畅度和自然性方面优于现有技术。

FluentLip: A Phoneme-Based Two-Stage Method for Audio-Driven Lip Synthesis with Optical Flow Consistency

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-06T00:00:00Z

本研究针对构音障碍语音识别中的表现下降问题,提出了一种动态音素级对比学习方法(DyPCL),以在不同说话者间获得不变的语音表征。通过将语音分解为音素段并引入动态课程学习,我们的方法能够更好地区分细微的语音差异,最终在UASpeech数据集上实现了22.10%的字错误率相对降低,显著提升了识别性能。

DyPCL:针对构音障碍语音识别的动态音素级对比学习

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-31T00:00:00Z

本研究提出了一种新方法,通过辅助音素预测器提升脑机接口在听觉语音解码中的表现,特别是对语音感知受损者,显示出优于传统方法的解码效果。

通过并行音素序列预测增强EEG中的听觉语音解码

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-08T00:00:00Z

本研究提出了PolyIPA模型,解决多语言姓名音译中的音素到字形转换问题。通过数据增强,模型在多语言测试集上实现了0.055的平均字符错误率和0.914的BLEU分数,证明了其有效性和潜力。

多语言音素到字形转换模型 PolyIPA

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-12T00:00:00Z

本文探讨了TTS语音合成技术在视频生成中的应用,特别是字幕处理。由于英文与中文发音差异,作者提出音素算法以更精准匹配语音与字幕,并提供相关JavaScript代码示例,强调寻找能返回单词朗读时长的供应商是最佳解决方案。

英文单词朗读基于音素预估时长的JS算法

张鑫旭
张鑫旭 · 2024-12-05T16:32:44Z

本研究探讨了文本到语音系统中字母到音素转换的歧义问题,提出了一种基于大语言模型的上下文知识检索方法,显著提高了转换精度,尤其在Librig2p数据集上降低了音素错误率。

通过上下文知识检索与大语言模型改善字母到音素的转换

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-12T00:00:00Z

本研究提出了一种混合上下文学习检索策略,通过音素转录提升多语言大型语言模型在非拉丁文字语言上的表现,从而缩小拉丁文字与非拉丁文字之间的性能差距。

使用音素提示:增强非拉丁文字语言的大型语言模型多语言能力

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-04T00:00:00Z

本研究提出了一种新方法,通过音素流预训练语言模型克服传统文本训练的局限。尽管在传统语言理解任务上性能略有下降,但在语言获取和声音任务中显示出潜在优势。

从无序到有序:在连续音素流上预训练语言模型

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-30T00:00:00Z

ToddlerBERTa是一种语言模型,通过调整五种超参数进行探索。在BLiMP和SuperGLUE等基准测试中,小模型在特定任务上表现出色,大模型在大量数据上表现良好。尽管训练数据集较小,ToddlerBERTa的性能与RoBERTa-base相当,展示了强大的语言理解能力。研究提供了关于超参数选择和数据利用的见解,推动了语言模型的发展。

小型语言模型如同小词汇:探究基于音素和字素的幼小拉马的语言能力

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-02T00:00:00Z

本研究针对现有语音韵律建模方法中依赖于全局风格表示的不足,探索了基于残差向量量化的音素级编解码器的韵律建模能力。通过对编码器和解码器进行语言表示的条件处理,研究结果表明,该方法在解耦效果上取得了显著进展,能够有效捕捉韵律信息,其潜在空间具有可解释的结构,主要成分与音调和能量相关联。

探讨用于韵律建模的音素级语音编解码器中的解耦

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-09-13T00:00:00Z

本研究探讨了无监督文本到语音合成作为数据增强方法,以改进口音语音识别的应用。通过生成带有口音的语音数据,并与无口音数据结合,可以减小字错误率。

跨方言语音合成中的音调重音语言结合多方言音素级BERT

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-09-11T00:00:00Z

本文研究了语音隐私保护方法,通过内容隐藏选定单词和短语。使用VQ-VAE和WaveRNN重新合成方法评估了基准掩码技术。研究了不同掩码位置和策略对自动语音识别和自动说话者验证的影响。讨论了隐私目标的影响问题。

语音验证中的音素去偏见注意框架 (PDAF)

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-09-09T00:00:00Z

本文研究了对中国瑶族主要民族语言之一的苗语进行低资源语音识别的方法。比较了基于音素、子词和自监督预训练的三种方法,结果显示音素监督效果最好,数据效率更高。弱监督的基于音素的多语言预训练模型(Whistle 模型)取得了最具竞争力的结果。

通过弱监督音素为基础的多语言预训练,实现对瑶族苗语的低资源语音识别

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-18T00:00:00Z

本研究提出了一种基于语音质量不同维度的评分标准,并通过实验评估音素和流利度。研究发现复杂性与不流畅性类型相关,但存在积极趋势。

一个综合的标注病理语音的准则

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-04-29T00:00:00Z

通过使用自监督学习的最新进展,本文消除了使用固定表示而非数据驱动的方法生成专家词典的问题,将其应用于无词典的文本转语音系统中,与基于专家词典的方法相比,在没有语言专业知识的前提下达到甚至略优的声音质量。

基于数据驱动的字素到音素表示的无词典文本转语音

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-01-19T00:00:00Z

本文介绍了通过对齐熵监督神经语音识别模型的方法,以提高模型的准确性和延迟。实验证明,对齐蒸馏可以改善师生蒸馏模型在流媒体场景下的性能。

基于类熵测量的连接主义音素识别中的分段边界检测

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-01-11T00:00:00Z

在语音识别应用中,通过使用基于音素的编码将 Tree-constrained Pointer Generator (TCPGen) 扩展,可以更好地识别发音不寻常的词,我们的 ASR 实验结果表明,这种音素感知编码优于传统的字母编码。

针对基于前缀树的上下文 ASR 的音素感知编码

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-12-15T00:00:00Z

该研究提出了一种新的方法,利用音素相似的嘴唇形状群体来提取更具辨别能力和鲁棒性的视频特征,从而改善了嘴唇识别系统的准确度问题。实验证明该方法在嘴唇识别和音频视觉语音识别等任务中优于最先进的方法,将错误率降低了9.1%。

计算机视觉中的唇部分割技术探索:一项比较分析

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-11-20T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码