💡 原文中文,约2600字,阅读约需7分钟。
📝

内容提要

NVIDIA发布了Nemotron语音识别模型,专为低延迟语音助手和实时字幕设计。该模型采用缓存感知的FastConformer编码器和RNNT解码器,支持16 kHz音频,提供多种输入块配置,词错误率在7.2%至7.8%之间,显著提升了并发性和稳定性,适用于实时语音应用。

🎯

关键要点

  • NVIDIA发布了Nemotron语音识别模型,专为低延迟语音助手和实时字幕设计。
  • Nemotron模型结合了缓存感知的FastConformer编码器和RNNT解码器,参数量为6亿。
  • 该模型支持16 kHz单声道音频,输入块至少为80毫秒,提供4种标准块配置。
  • 模型通过可配置的上下文大小控制运行时延迟,支持不同的延迟与准确性权衡。
  • 在Hugging Face OpenASR排行榜上,Nemotron的词错误率(WER)在7.2%至7.8%之间。
  • Nemotron的缓存感知流式处理消除了重叠窗口的重新计算,显著提升了并发性。
  • 在NVIDIA H100 GPU上,Nemotron支持约560个并发流,延迟保持稳定。
  • 模型主要基于NVIDIA Granary数据集的英语部分进行训练,结合了大量公共语音语料库。
  • Nemotron以NeMo检查点的形式发布,包含开放的权重和训练细节,便于团队微调和分析。
➡️

继续阅读