实时互动网 ·

NVIDIA 开源 Parakeet TDT 0.6B：打造自动语音识别 ASR 全新标准，一秒转录一小时音频

💡 原文中文，约1600字，阅读约需4分钟。

📝

内容提要

NVIDIA 发布了 Parakeet TDT 0.6B，这是一款开源的自动语音识别模型，拥有6亿参数和3386倍实时因子，具备快速转录和高准确率，支持歌曲转录、时间戳和标点恢复，适合企业级应用，推动语音AI发展。

🎯

🔎

Parakeet TDT 0.6B 的高实时因子和低字错误率使其在实时转录和语音分析等企业级应用中表现出色。其独特的歌曲转录功能也为音乐索引和媒体平台提供了新的可能性，拓宽了语音识别技术的应用范围。

NVIDIA 发布 Parakeet TDT 0.6B 标志着其在 AI 基础设施和开放生态系统中的进一步投资。这一开源模型不仅为开发者提供了构建语音界面的基础，还可能推动更多创新应用的出现，增强了 NVIDIA 在 AI 领域的竞争力。

在 Hugging Face 的开放式 ASR 排行榜上，Parakeet TDT 0.6B 的表现超越了 OpenAI 的 Whisper 等同类模型，显示出其在字错误率和转录速度上的优势。这使得 Parakeet 成为开发高效语音识别解决方案的优选。

❓

Parakeet TDT 0.6B 是 NVIDIA 发布的一款开源自动语音识别模型，拥有6亿个参数，具备快速转录和高准确率。

该模型可以在一秒钟内转录60分钟的音频，词错率达到6.05%，在同类模型中表现优异。

它支持歌曲转录为歌词、精确的时间戳格式和标点符号恢复，适合多种应用场景。

该模型基于 Transformer 架构，经过高质量转录数据微调，并利用 NVIDIA 的 TensorRT 和 FP8 量化技术优化推理性能。

它在字错误率方面领先于 OpenAI 的 Whisper 等同类模型，且具备更高的实时因子，适合企业级应用。

该模型已在 Hugging Face 上发布，支持 NVIDIA GPU 和低吞吐量的 CPU 环境，适合构建转录服务和语音集成应用。

🏷️