小红花·文摘

【AI入门课程系列】4、AI 的耳朵在哪里？—— 语音识别

分享AI芯片开发经验 ·

语音搜索错误纠正的音素增强判别重评分

Apple Machine Learning Research ·

本研究提出FluentLip，一种基于音素的双阶段音频驱动嘴唇合成方法，旨在提高嘴唇可懂度和视频流畅性。通过结合音素提取和光流一致性损失，显著提升了嘴唇运动的同步性和自然度，实验结果表明其在流畅度和自然性方面优于现有技术。

FluentLip: A Phoneme-Based Two-Stage Method for Audio-Driven Lip Synthesis with Optical Flow Consistency

BriefGPT - AI 论文速递 ·

本研究针对构音障碍语音识别中的表现下降问题，提出了一种动态音素级对比学习方法（DyPCL），以在不同说话者间获得不变的语音表征。通过将语音分解为音素段并引入动态课程学习，我们的方法能够更好地区分细微的语音差异，最终在UASpeech数据集上实现了22.10%的字错误率相对降低，显著提升了识别性能。

DyPCL：针对构音障碍语音识别的动态音素级对比学习

BriefGPT - AI 论文速递 ·

本研究提出了PolyIPA模型，解决多语言姓名音译中的音素到字形转换问题。通过数据增强，模型在多语言测试集上实现了0.055的平均字符错误率和0.914的BLEU分数，证明了其有效性和潜力。

多语言音素到字形转换模型 PolyIPA

BriefGPT - AI 论文速递 ·

本文探讨了TTS语音合成技术在视频生成中的应用，特别是字幕处理。由于英文与中文发音差异，作者提出音素算法以更精准匹配语音与字幕，并提供相关JavaScript代码示例，强调寻找能返回单词朗读时长的供应商是最佳解决方案。

英文单词朗读基于音素预估时长的JS算法

张鑫旭 ·

本文研究了神经语言模型（如LSTMs、BERT和GPT-2）在获取单词方面的表现，发现这些模型对单词频率的依赖高于儿童，但在长句中的学习速度较慢。提出了TinyStories数据集用于评估语言模型的能力，并强调小型模型在特定任务中的表现。研究还探讨了语言模型与儿童语言习得的关系，建议使用经过评估的数据集以提升模型的语言理解能力。

小型语言模型如同小词汇：探究基于音素和字素的幼小拉马的语言能力

BriefGPT - AI 论文速递 ·

本研究针对现有语音韵律建模方法中依赖于全局风格表示的不足，探索了基于残差向量量化的音素级编解码器的韵律建模能力。通过对编码器和解码器进行语言表示的条件处理，研究结果表明，该方法在解耦效果上取得了显著进展，能够有效捕捉韵律信息，其潜在空间具有可解释的结构，主要成分与音调和能量相关联。

探讨用于韵律建模的音素级语音编解码器中的解耦

BriefGPT - AI 论文速递 ·

本文研究了多种文本到语音（TTS）模型的改进方法，包括引入BERT模型以提高语音合成质量，采用多语言合成技术实现跨语言语音转移，以及利用无监督学习增强口音识别。实验结果表明，这些方法在低资源环境下有效提升了语音合成的自然度和准确性。

跨方言语音合成中的音调重音语言结合多方言音素级BERT

BriefGPT - AI 论文速递 ·

本文探讨了多种语音识别和说话人验证技术，包括基于i-vector的得分融合、注意力机制、动态卷积核和隐私保护方法。研究表明，改进模型和利用音素信息可以有效提高识别性能并保护语音内容隐私。

语音验证中的音素去偏见注意框架 (PDAF)

BriefGPT - AI 论文速递 ·

本文研究了低资源环境下的自动语音识别（ASR）技术，提出了Whistle方法，通过国际音标转写和自监督学习提高多语言识别性能。实验结果表明，该方法显著降低了训练数据需求，并提升了识别精度。

通过弱监督音素为基础的多语言预训练，实现对瑶族苗语的低资源语音识别

BriefGPT - AI 论文速递 ·

通过使用自监督学习的最新进展，本文消除了使用固定表示而非数据驱动的方法生成专家词典的问题，将其应用于无词典的文本转语音系统中，与基于专家词典的方法相比，在没有语言专业知识的前提下达到甚至略优的声音质量。

基于数据驱动的字素到音素表示的无词典文本转语音

BriefGPT - AI 论文速递 ·

本文介绍了通过对齐熵监督神经语音识别模型的方法，以提高模型的准确性和延迟。实验证明，对齐蒸馏可以改善师生蒸馏模型在流媒体场景下的性能。

基于类熵测量的连接主义音素识别中的分段边界检测

BriefGPT - AI 论文速递 ·

在语音识别应用中，通过使用基于音素的编码将 Tree-constrained Pointer Generator (TCPGen) 扩展，可以更好地识别发音不寻常的词，我们的 ASR 实验结果表明，这种音素感知编码优于传统的字母编码。

针对基于前缀树的上下文 ASR 的音素感知编码

BriefGPT - AI 论文速递 ·

该研究提出了一种新的方法，利用音素相似的嘴唇形状群体来提取更具辨别能力和鲁棒性的视频特征，从而改善了嘴唇识别系统的准确度问题。实验证明该方法在嘴唇识别和音频视觉语音识别等任务中优于最先进的方法，将错误率降低了9.1%。

计算机视觉中的唇部分割技术探索：一项比较分析

BriefGPT - AI 论文速递 ·

本论文介绍了一个包含115多种语系的大规模多语言语音语料库，其中包括细粒度音素转录。作者提出了一种名为CLAP-IPA的多语言音素语音对比嵌入模型，能够在语音信号和音素转录的关键词或短语之间进行开放词汇匹配。该模型在97种未见过的语言上进行了测试，展示了强大的跨语言泛化能力。与基于文本的模型相比，使用音素作为建模单位具有更好的跨语言泛化能力。

通过多语言对比的语音音素预训练在任何语言中实现开放词汇关键词检测

BriefGPT - AI 论文速递 ·

本文介绍了一种新的任务：口语视频 grounding（SVG），旨在将口语描述中的期望视频片段定位出来。为了更好地模拟实际应用，还将环境噪声随机添加到语音音频中，用于纠正识别性音素并从噪声音频中提取视频相关信息，研发一种新的视频引导课程学习（VGCL）方法。经过实验证明，VGCL 可以促进预训练过程，并显着提高口语视频焦点任务的表现。

探索使用扩散模型的迭代细化来进行视频定位

BriefGPT - AI 论文速递 ·

本文提出了一种可扩展的文本转语音方法，通过预测强调词的持续时间来改善自然度，成功识别了40％的强调单词。

关于合成训练数据中音素持续时间变异性对自动语音识别的相关性

BriefGPT - AI 论文速递 ·

本文研究了基于对比预测编码的自监督学习方法在音素分类和音素、单词分割方面的性能。通过整合多级建模方法到改进版本的CPC中，提高了在所有分类指标上的性能，并在单词分割方面取得了最先进的性能。

自动发音评估的新型损失函数：保留音素区分的序数回归

BriefGPT - AI 论文速递 ·

该文介绍了一种名为QFA2SR的黑盒攻击方法，利用对手语音的迁移性，使用三种新方法来改进迁移性。在四个商业API上，QFA2SR的目标迁移性提高了20.9％-70.7％，在三种广泛传播的语音助手上发射在空气中也很有效，分别获得60％，46％和70％的目标可转移性。

幽灵声：黑盒，查询有效的音频对抗攻击通过分秒级音素注入

BriefGPT - AI 论文速递 ·