PolyNorm是一种基于大型语言模型的文本规范化方法,旨在提高文本到语音系统的效率,减少对手工规则的依赖。该方法支持多语言,实验表明在八种语言中,词错误率显著降低,并提出了一种数字序列的位置信息描述方案,以简化数字处理。
本研究提出了一种基于短语的编辑表示方法,旨在提高自动语音识别后期编辑的重写效率。该方法在LibriSpeech测试集上显著降低了词错误率,并保持较高的长度压缩率,实现了效率与准确性的最佳平衡。
本研究提出了一种音译零-shot领域适应(ZSDA)方法,以解决自动语音识别模型在未覆盖领域的性能下降问题。实验结果表明,该方法相比传统模型,词错误率降低了9.2%,显示了音译技术的优势。
本研究提出了一种新的文本转语音生成方法——潜在语音(LatentSpeech),通过潜在扩散模型降低计算负担,简化编码器和声码器处理,提升生成语音质量。实验结果显示,潜在语音在词错误率和梅尔谱失真方面分别提高了25%和24%。
本研究探讨了文本到语音(TTS)系统中外部工具生成的时长依赖问题,提出了一种新的对齐器训练方法,显著提高了对齐准确性,词错误率降低了16%,优化了TTS系统的自然度和可懂度。
本文提出了一种多阶段微调策略,利用OpenAI的Whisper模型提升低资源语言的自动语音识别性能。在Malasar语言上实现了51.9%的词错误率,经过后处理降低至47.3%。
研究提出了一种名为Masked Audio Text Encoder (MATE)的多模态语言模型再评分方法,通过对比学习将声学表征融入MLM输入空间。即使在没有目标领域数据的情况下,MATE在ASR系统中表现出域泛化优势。在不同数据集上,MATE将词错误率降低了4%-16%,即使训练数据仅为0.8小时,也比基线系统降低8%-23%。
该研究比较了全连接层、多头交叉注意力和Q-Former三种结构,结果显示Q-Former在LibriSpeech、Common Voice和GigaSpeech数据集上显著降低了词错误率。特别是片段级Q-Former在处理超长语音时表现出色,在90秒语音数据上词错误率降低了17%。
本研究提出了一种基于Transformer的流式ASR系统,适用于更广泛的ASR场景。在测试数据上,词错误率分别为2.8%和7.2%,是目前最好的流式端到端ASR成果。
本文介绍了一种使用完整标点和大小写的长句训练新方法,通过FastConformer架构在标点和大小写准确率方面取得了显著进展,并在Earnings-21和Earnings-22基准上实现了25%相对词错误率的改善。该方法有望提高语音识别和翻译的准确性。
该论文比较了三种连接结构,并发现基于Q-Former的大语言模型在多个数据集上显著降低了词错误率。同时,提出了片段级Q-Former,能够识别超过编码器限制的语音片段,并取得了17%的词错误率降低。
本文介绍了一种多通道说话人归属自动语音识别系统,使用了基于Conformer的编码器和基于说话人归属的Transformer解码器,实验结果显示该系统在词错误率上有显著降低。研究还探讨了不同输入特征对ASR性能的影响,并在AMI语料库上进行了实验验证。
这项研究介绍了一种新的自监督语音转换架构,可以创建说话者解耦的表示。结果显示,使用这种表示的大型语言模型在说话者相似度和词错误率方面都有显著提高。同时,它们在自然性方面也优于人类录音。
该论文比较了三种连接结构,并对语音编码器和语言模型进行了实验。结果显示,基于Q-Former的语言模型在多个数据集上都取得了显著的词错误率降低。研究还提出了一种新的片段级Q-Former,能够识别超过编码器限制的语音片段,并取得了17%的词错误率降低。
渐变剪切方法(PCC)在训练自动语音识别(ASR)模型中起重要作用,提高收敛速度和降低词错误率。自适应每个核心剪切(APCC)是一种简化优化的变种,稳健、保护隐私的ASR模型训练策略。
本文提出了一种统一说话人自适应方法,基于特征适应和模型适应,能够在Librispeech数据集上降低词错误率,并具有低资源适应性能。
这项研究介绍了一种新的自监督语音转换架构,可以创建说话者解耦的表示。使用这种表示的模型在说话者相似度和词错误率方面表现更好,并且比人类录音更自然。使用明确的参考嵌入会对可读性产生负面影响。
本文通过多阶段增强方法改进阿拉伯语言障碍患者的自动语音识别性能。使用基于信号的方法生成阿拉伯语言障碍患者的语音,并通过对英语语言障碍患者语音数据进行训练以进行多语言扩充。实验结果显示,相比只针对健康数据训练的基础模型,本文方法在阿拉伯语言障碍患者的语音数据集上实现了18%的词错误率和17.2%的字符错误率的提升,并在真实的英文语言障碍患者语音数据集上实现了124%的词错误率的提升。
该论文提出了一种新颖的资源高效方法,利用已训练的自动语音识别模型进行视觉语音识别。该方法通过提取知识,在标准测试中以极少的资源实现了竞争性的性能。在未标记的数据上,基准模型在LRS2和LRS3测试中分别达到了47.4%和54.7%的词错误率。在有限标记数据的微调后,词错误率降至35%(LRS2)和45.7%(LRS3)。该模型可以在几天内在单个GPU上进行训练,并能够在老旧硬件上实时进行端到端的VSR。
完成下面两步后,将自动完成登录并继续当前操作。