小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
PolyNorm:基于少量示例的大型语言模型文本规范化方法用于文本到语音

PolyNorm是一种基于大型语言模型的文本规范化方法,旨在提高文本到语音系统的效率,减少对手工规则的依赖。该方法支持多语言,实验表明在八种语言中,词错误率显著降低,并提出了一种数字序列的位置信息描述方案,以简化数字处理。

PolyNorm:基于少量示例的大型语言模型文本规范化方法用于文本到语音

Apple Machine Learning Research
Apple Machine Learning Research · 2025-11-06T00:00:00Z

本研究提出了一种基于短语的编辑表示方法,旨在提高自动语音识别后期编辑的重写效率。该方法在LibriSpeech测试集上显著降低了词错误率,并保持较高的长度压缩率,实现了效率与准确性的最佳平衡。

Predicting Compact Phrasal Rewrites with Large Language Models for ASR Post-Editing

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-23T00:00:00Z

本研究提出了一种音译零-shot领域适应(ZSDA)方法,以解决自动语音识别模型在未覆盖领域的性能下降问题。实验结果表明,该方法相比传统模型,词错误率降低了9.2%,显示了音译技术的优势。

Transliterated Zero-Shot Domain Adaptation for Automatic Speech Recognition

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-15T00:00:00Z

本研究提出了一种新的文本转语音生成方法——潜在语音(LatentSpeech),通过潜在扩散模型降低计算负担,简化编码器和声码器处理,提升生成语音质量。实验结果显示,潜在语音在词错误率和梅尔谱失真方面分别提高了25%和24%。

LatentSpeech: Text-to-Speech Generation Based on Latent Diffusion

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-11T00:00:00Z

本研究探讨了文本到语音(TTS)系统中外部工具生成的时长依赖问题,提出了一种新的对齐器训练方法,显著提高了对齐准确性,词错误率降低了16%,优化了TTS系统的自然度和可懂度。

Alignment-Guided Training Paradigm: Enhancing Duration in Text-to-Speech Models through Alignment Guidance

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-11T00:00:00Z

本文提出了一种多阶段微调策略,利用OpenAI的Whisper模型提升低资源语言的自动语音识别性能。在Malasar语言上实现了51.9%的词错误率,经过后处理降低至47.3%。

A Multi-Stage Fine-Tuning Strategy for Automatic Speech Recognition in Low-Resource Languages

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-07T00:00:00Z

该研究介绍了Speech-LLaMA,一种将声学信息整合到大型语言模型中的新方法,显著提升了语音识别和翻译性能。通过引入适配器和新型Q-Former结构,降低了词错误率,并展示了在多说话者场景中的潜力。此外,研究探讨了多模态模型在自动语音识别中的应用,提升了重评分性能。

如何连接语音基础模型和大型语言模型?重要因素与非重要因素

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-09-25T00:00:00Z

本研究探讨了大型语言模型(LLMs)在自动语音识别(ASR)中的应用,发现其双向性和上下文增强显著提高了转录准确性,尤其在多说话者场景中表现优异,展示了在复杂环境中的潜力。

基于大型语音-文本基础模型的语音识别重评分

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-09-25T00:00:00Z

本文质疑现代自动语音识别(ASR)系统在基准数据集上的低词错误率,比较了三种商用ASR系统在真实对话中的表现,发现其词错误率显著高于报告结果。研究提出了高质量数据集的创建准则,并探讨了阿拉伯语及其方言的ASR技术进展,强调人类在识别中的优势。此外,介绍了针对资源稀缺语言的ASR训练数据集生成新流程,旨在提升低资源语言的ASR性能。

我们立足何处:乌尔都语自动语音识别模型基准评估

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-09-17T00:00:00Z

本文提出了一种高效自学习框架,解决了传统语音识别系统在对话中适应上下文和用户反馈的不足。通过学生-教师学习和上下文感知处理,该框架显著提升了对话系统性能,实验显示词错误率降低近10%。

An Efficient Self-Learning Framework for Interactive Spoken Dialog Systems

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-09-16T00:00:00Z

本文探讨了大型语言模型(LLMs)在自动语音识别(ASR)中的错误校正能力,提出了无约束和N-best约束校正方法。研究表明,LLMs显著提高了ASR系统性能,降低了词错误率(WER),并改善了语音转录的准确性,为低资源语言提供了解决方案。

基于多通道增强生成纠错的日本语音识别基准

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-29T00:00:00Z

本文探讨了将大型语言模型(LLMs)集成到自动语音识别(ASR)系统中的方法,以提高转录准确性。研究表明,使用LLMs和新颖的训练方法可以显著降低词错误率,特别是在特定领域词汇识别方面表现优异。实验结果显示,基于Q-Former的模型在多个数据集上取得了显著的性能提升。

通过上下文化提高基于大语言模型的语音识别能力以识别稀有和模糊词汇

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-15T00:00:00Z

本文提出了一种联合语音与语言模型(SLM),通过冻结预训练模型并训练简单适配器,在语音识别和翻译任务中表现优异。SLM 具备零-shot 指导能力,能够处理多样化任务,表明语音与语言模型之间的表征差距较小。研究还展示了多任务学习框架在自动语音识别和翻译中的有效性,显著降低了词错误率并提高了 BLEU 分数。

DeSTA: 通过描述性语音文本对齐提升语音语言模型

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-27T00:00:00Z

本文介绍了GigaSpeech语音识别语料库,包含多领域的高质量音频,提供训练子集和新对齐管道。研究表明,基于GigaSpeech 2的模型在低资源语言上显著提高了识别性能,降低了词错误率。同时,探讨了多语言训练对低资源语言ASR的优势,并展示了多种语言的基准测试结果。

MSR-86K:一个包含 86,300 小时语音转换文本的多语种演变语料库,用于语音识别研究

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-26T00:00:00Z

本文介绍了一种基于Transformer架构的自动语音识别(ASR)后处理模型,能够将ASR输出转换为语法和语义正确的文本。研究表明,数据增强和预训练权重对性能至关重要。在LibriSpeech基准测试中,该模型在嘈杂环境下表现优异,显著降低了词错误率。此外,结合视觉信息和多任务训练进一步提升了识别效果。

基于 Transformer 的语音识别 N-Best 重新评分和重写模型

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-12T00:00:00Z

本文提出了一种基于上下文感知的变形器转录方法,通过动态调整偏差列表优化语音识别性能。实验证明,该方法在常见情况下可减少词错误率(WER)和字符错误率(CER),并在个性化情况下保持良好表现。此外,研究展示了轻量级字符表示和上下文编码的有效性,显著提高了识别精度,尤其在处理稀有单词时表现突出。

CTC 和转录器 ASR 模型的快速上下文偏见和基于 CTC 的词识别器

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-11T00:00:00Z

该研究论文探讨了端到端自动语音识别(ASR)模型的分类与改进,分析了其对传统隐马尔科夫模型的影响。研究采用混合CTC-Attention方法优化中文发音检测,显著提高了性能。通过多样化训练数据和模块化培训框架,增强了模型的泛化能力,并提出将外部语言模型整合进E2E系统以降低词错误率。

提升基于 CTC 的语音识别的多样建模单元

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-05T00:00:00Z

本研究旨在提升瑞士德语方言的自动语音识别(ASR)模型性能。通过微调OpenAI的Whisper模型并提出新损失函数,取得了优于现有成果的效果。研究评估了多个瑞士德语语音转文本系统,分析了其优缺点,并提出改进方案。实验表明,使用基于知识的发音词典和上下文学习方法能显著降低词错误率,提高识别准确性。

Whisper 是否理解瑞士德语?自动化质量评估与人工评价

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-04-30T00:00:00Z

该论文提出了一种新颖的资源高效方法,利用已训练的自动语音识别模型进行视觉语音识别。该方法通过提取知识,在标准测试中以极少的资源实现了竞争性的性能。在未标记的数据上,基准模型在LRS2和LRS3测试中分别达到了47.4%和54.7%的词错误率。在有限标记数据的微调后,词错误率降至35%(LRS2)和45.7%(LRS3)。该模型可以在几天内在单个GPU上进行训练,并能够在老旧硬件上实时进行端到端的VSR。

通过学习离散化的视觉口语单位单模型实现多语言视觉口语识别

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-01-18T00:00:00Z

本文介绍了一个基于外部巨大语言模型的自动语音识别错误订正的开源基准测试,包含超过334,000个N-best假设及相应准确转录数据对。利用LLMs实现了显著的词错误率降低,突破了传统的重新排名方法上限并具备生成能力,提供了一个基于LLMs的ASR错误订正的全新评估范式。

HyPoradise: 一种基于大型语言模型的生成式语音识别的开放基准

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-09-27T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码