💡
原文中文,约3100字,阅读约需8分钟。
📝
内容提要
NVIDIA发布了Nemotron 3.5 ASR,这是一个支持40种语言的流式自动语音识别模型,拥有6亿参数。该模型采用FastConformer-RNNT架构,实时转录时无需单独处理标点和大小写,推理延迟可调,适合多种应用场景。经过微调,希腊语和保加利亚语的识别准确率显著提高。
🎯
关键要点
-
NVIDIA发布了Nemotron 3.5 ASR,这是一个拥有6亿参数的流式自动语音识别模型,支持40种语言。
-
该模型采用缓存感知型FastConformer-RNNT架构,实时转录时无需单独处理标点和大小写。
-
推理延迟可调,设置范围从80毫秒到1.12秒,适合低延迟和高吞吐量的应用场景。
-
经过微调,希腊语和保加利亚语的识别准确率显著提高,WER分别降低了32%和31%。
-
模型以开放权重形式发布,支持自托管,区别于封闭式API服务。
❓
延伸问答
Nemotron 3.5 ASR的主要特点是什么?
Nemotron 3.5 ASR是一个拥有6亿参数的流式自动语音识别模型,支持40种语言,采用缓存感知型FastConformer-RNNT架构,实时转录时无需单独处理标点和大小写。
该模型如何处理标点和大小写?
Nemotron 3.5 ASR在实时转录时原生支持标点和大小写,无需单独处理。
推理延迟可以调节到什么范围?
推理延迟可调范围从80毫秒到1.12秒,适合不同的应用场景。
希腊语和保加利亚语的识别准确率如何?
经过微调后,希腊语的识别准确率提高,WER从35降至24,改善了32%;保加利亚语的WER从22降至15,改善了31%。
Nemotron 3.5 ASR与其他语音识别模型相比有什么优势?
Nemotron 3.5 ASR支持40种语言,开放权重,且在缓存处理上效率高,推理延迟可调,适合多种应用场景。
如何使用Nemotron 3.5 ASR进行自托管?
Nemotron 3.5 ASR以开放权重形式发布,用户可以在Hugging Face上获取并进行自托管。
➡️