小红花·文摘

PolyNorm：基于少量示例的大型语言模型文本规范化方法用于文本到语音

Apple Machine Learning Research ·

本研究提出了一种基于短语的编辑表示方法，旨在提高自动语音识别后期编辑的重写效率。该方法在LibriSpeech测试集上显著降低了词错误率，并保持较高的长度压缩率，实现了效率与准确性的最佳平衡。

Predicting Compact Phrasal Rewrites with Large Language Models for ASR Post-Editing

BriefGPT - AI 论文速递 ·

本研究提出了一种音译零-shot领域适应（ZSDA）方法，以解决自动语音识别模型在未覆盖领域的性能下降问题。实验结果表明，该方法相比传统模型，词错误率降低了9.2%，显示了音译技术的优势。

Transliterated Zero-Shot Domain Adaptation for Automatic Speech Recognition

BriefGPT - AI 论文速递 ·

本研究提出了一种新的文本转语音生成方法——潜在语音（LatentSpeech），通过潜在扩散模型降低计算负担，简化编码器和声码器处理，提升生成语音质量。实验结果显示，潜在语音在词错误率和梅尔谱失真方面分别提高了25%和24%。

LatentSpeech: Text-to-Speech Generation Based on Latent Diffusion

BriefGPT - AI 论文速递 ·

本研究探讨了文本到语音(TTS)系统中外部工具生成的时长依赖问题，提出了一种新的对齐器训练方法，显著提高了对齐准确性，词错误率降低了16%，优化了TTS系统的自然度和可懂度。

Alignment-Guided Training Paradigm: Enhancing Duration in Text-to-Speech Models through Alignment Guidance

BriefGPT - AI 论文速递 ·

本文提出了一种多阶段微调策略，利用OpenAI的Whisper模型提升低资源语言的自动语音识别性能。在Malasar语言上实现了51.9%的词错误率，经过后处理降低至47.3%。

低资源语言自动语音识别的多阶段微调策略

BriefGPT - AI 论文速递 ·

研究提出了一种名为Masked Audio Text Encoder (MATE)的多模态语言模型再评分方法，通过对比学习将声学表征融入MLM输入空间。即使在没有目标领域数据的情况下，MATE在ASR系统中表现出域泛化优势。在不同数据集上，MATE将词错误率降低了4%-16%，即使训练数据仅为0.8小时，也比基线系统降低8%-23%。

EH-MAM：用于自我监督语音表征学习的易到难的掩蔽声学建模

BriefGPT - AI 论文速递 ·

该研究比较了全连接层、多头交叉注意力和Q-Former三种结构，结果显示Q-Former在LibriSpeech、Common Voice和GigaSpeech数据集上显著降低了词错误率。特别是片段级Q-Former在处理超长语音时表现出色，在90秒语音数据上词错误率降低了17%。

如何连接语音基础模型和大型语言模型？重要因素与非重要因素

BriefGPT - AI 论文速递 ·

本研究提出了一种基于Transformer的流式ASR系统，适用于更广泛的ASR场景。在测试数据上，词错误率分别为2.8%和7.2%，是目前最好的流式端到端ASR成果。

线性时间复杂度的流式语音识别摘要混合变换器

BriefGPT - AI 论文速递 ·

本文介绍了一种使用完整标点和大小写的长句训练新方法，通过FastConformer架构在标点和大小写准确率方面取得了显著进展，并在Earnings-21和Earnings-22基准上实现了25%相对词错误率的改善。该方法有望提高语音识别和翻译的准确性。

长不一定更强：用于增强语音识别和翻译的断续长序列训练

BriefGPT - AI 论文速递 ·

该论文比较了三种连接结构，并发现基于Q-Former的大语言模型在多个数据集上显著降低了词错误率。同时，提出了片段级Q-Former，能够识别超过编码器限制的语音片段，并取得了17%的词错误率降低。

通过上下文化提高基于大语言模型的语音识别能力以识别稀有和模糊词汇

BriefGPT - AI 论文速递 ·

本文介绍了一种多通道说话人归属自动语音识别系统，使用了基于Conformer的编码器和基于说话人归属的Transformer解码器，实验结果显示该系统在词错误率上有显著降低。研究还探讨了不同输入特征对ASR性能的影响，并在AMI语料库上进行了实验验证。

多通道神经转录器的自监督学习

BriefGPT - AI 论文速递 ·

这项研究介绍了一种新的自监督语音转换架构，可以创建说话者解耦的表示。结果显示，使用这种表示的大型语言模型在说话者相似度和词错误率方面都有显著提高。同时，它们在自然性方面也优于人类录音。

走向语音表征学习的下一个前沿：利用解缠绕

BriefGPT - AI 论文速递 ·

该论文比较了三种连接结构，并对语音编码器和语言模型进行了实验。结果显示，基于Q-Former的语言模型在多个数据集上都取得了显著的词错误率降低。研究还提出了一种新的片段级Q-Former，能够识别超过编码器限制的语音片段，并取得了17%的词错误率降低。

连接语音编码器和大型语言模型的全面解决方案用于语音识别

BriefGPT - AI 论文速递 ·

渐变剪切方法（PCC）在训练自动语音识别（ASR）模型中起重要作用，提高收敛速度和降低词错误率。自适应每个核心剪切（APCC）是一种简化优化的变种，稳健、保护隐私的ASR模型训练策略。

用 Per-core Clipping 高效训练能记忆较少且性能更好的 ASR 模型

BriefGPT - AI 论文速递 ·

本文提出了一种统一说话人自适应方法，基于特征适应和模型适应，能够在Librispeech数据集上降低词错误率，并具有低资源适应性能。

自学习识别器：面向语音基础模型的无监督适应

BriefGPT - AI 论文速递 ·

这项研究介绍了一种新的自监督语音转换架构，可以创建说话者解耦的表示。使用这种表示的模型在说话者相似度和词错误率方面表现更好，并且比人类录音更自然。使用明确的参考嵌入会对可读性产生负面影响。

自我监督的口语语言模型中的声调编码

BriefGPT - AI 论文速递 ·

本文通过多阶段增强方法改进阿拉伯语言障碍患者的自动语音识别性能。使用基于信号的方法生成阿拉伯语言障碍患者的语音，并通过对英语语言障碍患者语音数据进行训练以进行多语言扩充。实验结果显示，相比只针对健康数据训练的基础模型，本文方法在阿拉伯语言障碍患者的语音数据集上实现了18%的词错误率和17.2%的字符错误率的提升，并在真实的英文语言障碍患者语音数据集上实现了124%的词错误率的提升。

该论文提出了一种新颖的资源高效方法，利用已训练的自动语音识别模型进行视觉语音识别。该方法通过提取知识，在标准测试中以极少的资源实现了竞争性的性能。在未标记的数据上，基准模型在LRS2和LRS3测试中分别达到了47.4%和54.7%的词错误率。在有限标记数据的微调后，词错误率降至35%（LRS2）和45.7%（LRS3）。该模型可以在几天内在单个GPU上进行训练，并能够在老旧硬件上实时进行端到端的VSR。

通过学习离散化的视觉口语单位单模型实现多语言视觉口语识别

BriefGPT - AI 论文速递 ·

PolyNorm：基于少量示例的大型语言模型文本规范化方法用于文本到语音

Predicting Compact Phrasal Rewrites with Large Language Models for ASR Post-Editing

Transliterated Zero-Shot Domain Adaptation for Automatic Speech Recognition

LatentSpeech: Text-to-Speech Generation Based on Latent Diffusion

Alignment-Guided Training Paradigm: Enhancing Duration in Text-to-Speech Models through Alignment Guidance

低资源语言自动语音识别的多阶段微调策略

EH-MAM：用于自我监督语音表征学习的易到难的掩蔽声学建模

如何连接语音基础模型和大型语言模型？重要因素与非重要因素

线性时间复杂度的流式语音识别摘要混合变换器

长不一定更强：用于增强语音识别和翻译的断续长序列训练

通过上下文化提高基于大语言模型的语音识别能力以识别稀有和模糊词汇

多通道神经转录器的自监督学习

走向语音表征学习的下一个前沿：利用解缠绕

连接语音编码器和大型语言模型的全面解决方案用于语音识别

用 Per-core Clipping 高效训练能记忆较少且性能更好的 ASR 模型

自学习识别器：面向语音基础模型的无监督适应

使用变长软池化方法从语音表示中去除说话人信息

自我监督的口语语言模型中的声调编码

在阿拉伯电话领域中评估自动语音识别系统的新基准

通过学习离散化的视觉口语单位单模型实现多语言视觉口语识别