AI 的语音识别通过三个步骤实现:将声音转为数字、拆分音素、利用概率模型推测含义。AI 通过麦克风捕捉声波,算法解析音频,从而理解人类语言。
本文提出了一种针对E2E自动语音识别模型在新电影标题识别中不足的音素纠正方法。该方法通过音素搜索生成替代选项,并结合ASR模型的识别结果,显著提高了识别准确率,错误率降低了4.4%至7.6%。
本研究提出FluentLip,一种基于音素的双阶段音频驱动嘴唇合成方法,旨在提高嘴唇可懂度和视频流畅性。通过结合音素提取和光流一致性损失,显著提升了嘴唇运动的同步性和自然度,实验结果表明其在流畅度和自然性方面优于现有技术。
本研究针对构音障碍语音识别中的表现下降问题,提出了一种动态音素级对比学习方法(DyPCL),以在不同说话者间获得不变的语音表征。通过将语音分解为音素段并引入动态课程学习,我们的方法能够更好地区分细微的语音差异,最终在UASpeech数据集上实现了22.10%的字错误率相对降低,显著提升了识别性能。
本研究提出了一种新方法,通过辅助音素预测器提升脑机接口在听觉语音解码中的表现,特别是对语音感知受损者,显示出优于传统方法的解码效果。
本研究提出了PolyIPA模型,解决多语言姓名音译中的音素到字形转换问题。通过数据增强,模型在多语言测试集上实现了0.055的平均字符错误率和0.914的BLEU分数,证明了其有效性和潜力。
本文探讨了TTS语音合成技术在视频生成中的应用,特别是字幕处理。由于英文与中文发音差异,作者提出音素算法以更精准匹配语音与字幕,并提供相关JavaScript代码示例,强调寻找能返回单词朗读时长的供应商是最佳解决方案。
本研究探讨了文本到语音系统中字母到音素转换的歧义问题,提出了一种基于大语言模型的上下文知识检索方法,显著提高了转换精度,尤其在Librig2p数据集上降低了音素错误率。
本研究提出了一种混合上下文学习检索策略,通过音素转录提升多语言大型语言模型在非拉丁文字语言上的表现,从而缩小拉丁文字与非拉丁文字之间的性能差距。
本研究提出了一种新方法,通过音素流预训练语言模型克服传统文本训练的局限。尽管在传统语言理解任务上性能略有下降,但在语言获取和声音任务中显示出潜在优势。
ToddlerBERTa是一种语言模型,通过调整五种超参数进行探索。在BLiMP和SuperGLUE等基准测试中,小模型在特定任务上表现出色,大模型在大量数据上表现良好。尽管训练数据集较小,ToddlerBERTa的性能与RoBERTa-base相当,展示了强大的语言理解能力。研究提供了关于超参数选择和数据利用的见解,推动了语言模型的发展。
本研究针对现有语音韵律建模方法中依赖于全局风格表示的不足,探索了基于残差向量量化的音素级编解码器的韵律建模能力。通过对编码器和解码器进行语言表示的条件处理,研究结果表明,该方法在解耦效果上取得了显著进展,能够有效捕捉韵律信息,其潜在空间具有可解释的结构,主要成分与音调和能量相关联。
本研究探讨了无监督文本到语音合成作为数据增强方法,以改进口音语音识别的应用。通过生成带有口音的语音数据,并与无口音数据结合,可以减小字错误率。
本文研究了语音隐私保护方法,通过内容隐藏选定单词和短语。使用VQ-VAE和WaveRNN重新合成方法评估了基准掩码技术。研究了不同掩码位置和策略对自动语音识别和自动说话者验证的影响。讨论了隐私目标的影响问题。
本文研究了对中国瑶族主要民族语言之一的苗语进行低资源语音识别的方法。比较了基于音素、子词和自监督预训练的三种方法,结果显示音素监督效果最好,数据效率更高。弱监督的基于音素的多语言预训练模型(Whistle 模型)取得了最具竞争力的结果。
本研究提出了一种基于语音质量不同维度的评分标准,并通过实验评估音素和流利度。研究发现复杂性与不流畅性类型相关,但存在积极趋势。
通过使用自监督学习的最新进展,本文消除了使用固定表示而非数据驱动的方法生成专家词典的问题,将其应用于无词典的文本转语音系统中,与基于专家词典的方法相比,在没有语言专业知识的前提下达到甚至略优的声音质量。
本文介绍了通过对齐熵监督神经语音识别模型的方法,以提高模型的准确性和延迟。实验证明,对齐蒸馏可以改善师生蒸馏模型在流媒体场景下的性能。
在语音识别应用中,通过使用基于音素的编码将 Tree-constrained Pointer Generator (TCPGen) 扩展,可以更好地识别发音不寻常的词,我们的 ASR 实验结果表明,这种音素感知编码优于传统的字母编码。
该研究提出了一种新的方法,利用音素相似的嘴唇形状群体来提取更具辨别能力和鲁棒性的视频特征,从而改善了嘴唇识别系统的准确度问题。实验证明该方法在嘴唇识别和音频视觉语音识别等任务中优于最先进的方法,将错误率降低了9.1%。
完成下面两步后,将自动完成登录并继续当前操作。