sensevoice的cli工具,支持英文、中文、粤以、日韩的语音识别

💡 原文中文,约500字,阅读约需2分钟。
📝

内容提要

SenseVoice是阿里开源的中日韩及粤语语音识别模型,使用ONNX Runtime实现Rust版本,支持多种音频格式,性能优于Python版,采用Silero VAD进行语音分割,使用简单。

🎯

关键要点

  • SenseVoice是阿里开源的中日韩及粤语语音识别模型。
  • 使用ONNX Runtime实现Rust版本,性能优于Python版。
  • 支持多种音频格式,包括mp3、ogg和wav。
  • 自动从huggingface.co下载模型,也支持hf-mirrors.com。
  • 采用Silero VAD进行语音分割,精确度较高。
  • 全静态链接,易于打包到自己的程序中使用。
➡️

继续阅读