博客园 - 乂墨EMO ·

funasr语音识别，支持cpu - 乂墨EMO

💡 原文中文，约2400字，阅读约需6分钟。

📝

内容提要

阿里达摩院开源了大型语音识别工具包FunASR，核心模型Paraformer经过60,000小时的普通话语音数据训练，具备高精度识别能力。该工具包还包括语音活动检测和文本后处理模型，性能优于Whisper，适用于长音频识别服务。

🎯

🔎

FunASR的核心模型Paraformer经过60,000小时的普通话语音数据训练，具备高精度的语音识别能力。相比于其他模型，Paraformer在长音频识别方面表现更为优越，尤其是在处理复杂语境时，能够提供更准确的转写结果。

FunASR不仅提供了高效的语音识别模型，还包含了语音活动检测和文本后处理模型。这些模块的开源使得开发者能够更方便地将其集成到实际应用中，降低了技术门槛，促进了语音识别技术的普及。

FunASR在中文语音转写效果上优于Whisper，这意味着在需要高精度中文识别的场景中，FunASR可能是更合适的选择。用户在选择语音识别工具时，应考虑具体应用需求和语言环境。

❓

FunASR是阿里达摩院开源的大型语音识别工具包，支持高精度的语音识别。

Paraformer模型经过60,000小时的普通话语音数据训练。

FunASR的中文语音转写效果优于Whisper，特别适用于长音频识别服务。

FunASR包括语音活动检测模型和文本后处理模型，增强了语音识别的准确性。

可以通过配置PyAudio和模型参数，使用FunASR进行实时语音识别。

Paraformer模型增加了时间戳预测和热词定制能力，以提高识别性能。

🏷️