PolyNorm是一种基于大型语言模型的文本规范化方法,旨在提高文本到语音系统的效率,减少对手工规则的依赖。该方法支持多语言,实验表明在八种语言中,词错误率显著降低,并提出了一种数字序列的位置信息描述方案,以简化数字处理。
本研究提出了一种基于短语的编辑表示方法,旨在提高自动语音识别后期编辑的重写效率。该方法在LibriSpeech测试集上显著降低了词错误率,并保持较高的长度压缩率,实现了效率与准确性的最佳平衡。
本研究提出了一种音译零-shot领域适应(ZSDA)方法,以解决自动语音识别模型在未覆盖领域的性能下降问题。实验结果表明,该方法相比传统模型,词错误率降低了9.2%,显示了音译技术的优势。
本研究提出了一种新的文本转语音生成方法——潜在语音(LatentSpeech),通过潜在扩散模型降低计算负担,简化编码器和声码器处理,提升生成语音质量。实验结果显示,潜在语音在词错误率和梅尔谱失真方面分别提高了25%和24%。
本研究探讨了文本到语音(TTS)系统中外部工具生成的时长依赖问题,提出了一种新的对齐器训练方法,显著提高了对齐准确性,词错误率降低了16%,优化了TTS系统的自然度和可懂度。
本文提出了一种多阶段微调策略,利用OpenAI的Whisper模型提升低资源语言的自动语音识别性能。在Malasar语言上实现了51.9%的词错误率,经过后处理降低至47.3%。
该研究介绍了Speech-LLaMA,一种将声学信息整合到大型语言模型中的新方法,显著提升了语音识别和翻译性能。通过引入适配器和新型Q-Former结构,降低了词错误率,并展示了在多说话者场景中的潜力。此外,研究探讨了多模态模型在自动语音识别中的应用,提升了重评分性能。
本研究探讨了大型语言模型(LLMs)在自动语音识别(ASR)中的应用,发现其双向性和上下文增强显著提高了转录准确性,尤其在多说话者场景中表现优异,展示了在复杂环境中的潜力。
本文质疑现代自动语音识别(ASR)系统在基准数据集上的低词错误率,比较了三种商用ASR系统在真实对话中的表现,发现其词错误率显著高于报告结果。研究提出了高质量数据集的创建准则,并探讨了阿拉伯语及其方言的ASR技术进展,强调人类在识别中的优势。此外,介绍了针对资源稀缺语言的ASR训练数据集生成新流程,旨在提升低资源语言的ASR性能。
本文提出了一种高效自学习框架,解决了传统语音识别系统在对话中适应上下文和用户反馈的不足。通过学生-教师学习和上下文感知处理,该框架显著提升了对话系统性能,实验显示词错误率降低近10%。
本文探讨了大型语言模型(LLMs)在自动语音识别(ASR)中的错误校正能力,提出了无约束和N-best约束校正方法。研究表明,LLMs显著提高了ASR系统性能,降低了词错误率(WER),并改善了语音转录的准确性,为低资源语言提供了解决方案。
本文探讨了将大型语言模型(LLMs)集成到自动语音识别(ASR)系统中的方法,以提高转录准确性。研究表明,使用LLMs和新颖的训练方法可以显著降低词错误率,特别是在特定领域词汇识别方面表现优异。实验结果显示,基于Q-Former的模型在多个数据集上取得了显著的性能提升。
本文提出了一种联合语音与语言模型(SLM),通过冻结预训练模型并训练简单适配器,在语音识别和翻译任务中表现优异。SLM 具备零-shot 指导能力,能够处理多样化任务,表明语音与语言模型之间的表征差距较小。研究还展示了多任务学习框架在自动语音识别和翻译中的有效性,显著降低了词错误率并提高了 BLEU 分数。
本文介绍了GigaSpeech语音识别语料库,包含多领域的高质量音频,提供训练子集和新对齐管道。研究表明,基于GigaSpeech 2的模型在低资源语言上显著提高了识别性能,降低了词错误率。同时,探讨了多语言训练对低资源语言ASR的优势,并展示了多种语言的基准测试结果。
本文介绍了一种基于Transformer架构的自动语音识别(ASR)后处理模型,能够将ASR输出转换为语法和语义正确的文本。研究表明,数据增强和预训练权重对性能至关重要。在LibriSpeech基准测试中,该模型在嘈杂环境下表现优异,显著降低了词错误率。此外,结合视觉信息和多任务训练进一步提升了识别效果。
本文提出了一种基于上下文感知的变形器转录方法,通过动态调整偏差列表优化语音识别性能。实验证明,该方法在常见情况下可减少词错误率(WER)和字符错误率(CER),并在个性化情况下保持良好表现。此外,研究展示了轻量级字符表示和上下文编码的有效性,显著提高了识别精度,尤其在处理稀有单词时表现突出。
该研究论文探讨了端到端自动语音识别(ASR)模型的分类与改进,分析了其对传统隐马尔科夫模型的影响。研究采用混合CTC-Attention方法优化中文发音检测,显著提高了性能。通过多样化训练数据和模块化培训框架,增强了模型的泛化能力,并提出将外部语言模型整合进E2E系统以降低词错误率。
本研究旨在提升瑞士德语方言的自动语音识别(ASR)模型性能。通过微调OpenAI的Whisper模型并提出新损失函数,取得了优于现有成果的效果。研究评估了多个瑞士德语语音转文本系统,分析了其优缺点,并提出改进方案。实验表明,使用基于知识的发音词典和上下文学习方法能显著降低词错误率,提高识别准确性。
该论文提出了一种新颖的资源高效方法,利用已训练的自动语音识别模型进行视觉语音识别。该方法通过提取知识,在标准测试中以极少的资源实现了竞争性的性能。在未标记的数据上,基准模型在LRS2和LRS3测试中分别达到了47.4%和54.7%的词错误率。在有限标记数据的微调后,词错误率降至35%(LRS2)和45.7%(LRS3)。该模型可以在几天内在单个GPU上进行训练,并能够在老旧硬件上实时进行端到端的VSR。
本文介绍了一个基于外部巨大语言模型的自动语音识别错误订正的开源基准测试,包含超过334,000个N-best假设及相应准确转录数据对。利用LLMs实现了显著的词错误率降低,突破了传统的重新排名方法上限并具备生成能力,提供了一个基于LLMs的ASR错误订正的全新评估范式。
完成下面两步后,将自动完成登录并继续当前操作。