开源初探 - stt

💡 原文中文,约4100字,阅读约需10分钟。
📝

内容提要

这是一个离线运行的本地语音识别转文字工具,基于fast-whisper开源模型。可将视频/音频中的人类声音识别并转为文字,可输出json格式、srt字幕带时间戳格式、纯文字格式。准确率基本等同openai官方api接口。需要安装CUDA和NVIDIA Container Toolkit。使用docker安装运行。下载模型文件并运行stt。可使用wav或mp3文件进行测试。转换结果准确率大概90%左右。项目地址:https://github.com/jianchang512/stt。

🎯

关键要点

  • 这是一个离线运行的本地语音识别转文字工具,基于fast-whisper开源模型。
  • 可将视频/音频中的人类声音识别并转为文字,输出格式包括json、srt字幕和纯文字。
  • 准确率基本等同于OpenAI官方API接口,约90%。
  • 需要安装CUDA和NVIDIA Container Toolkit以使用GPU。
  • 使用Docker安装和运行stt,提供了Dockerfile的配置示例。
  • 配置文件set.ini用于设置监听地址、语言、设备类型等参数。
  • 模型文件可从指定地址下载并解压,使用large-v3模型。
  • 提供了测试文件test.py的示例代码,用于发送音频文件进行识别。
  • 支持wav和mp3格式的音频文件,转换结果的准确率约为90%。
  • 项目地址和更多信息可在GitHub上获取。
🏷️

标签

➡️

继续阅读