dotNET跨平台 ·

开源初探 - stt

💡 原文中文，约4100字，阅读约需10分钟。

📝

内容提要

这是一个离线运行的本地语音识别转文字工具，基于fast-whisper开源模型。可将视频/音频中的人类声音识别并转为文字，可输出json格式、srt字幕带时间戳格式、纯文字格式。准确率基本等同openai官方api接口。需要安装CUDA和NVIDIA Container Toolkit。使用docker安装运行。下载模型文件并运行stt。可使用wav或mp3文件进行测试。转换结果准确率大概90%左右。项目地址：https://github.com/jianchang512/stt。

🎯

关键要点

这是一个离线运行的本地语音识别转文字工具，基于fast-whisper开源模型。
可将视频/音频中的人类声音识别并转为文字，输出格式包括json、srt字幕和纯文字。
准确率基本等同于OpenAI官方API接口，约90%。
需要安装CUDA和NVIDIA Container Toolkit以使用GPU。
使用Docker安装和运行stt，提供了Dockerfile的配置示例。
配置文件set.ini用于设置监听地址、语言、设备类型等参数。
模型文件可从指定地址下载并解压，使用large-v3模型。
提供了测试文件test.py的示例代码，用于发送音频文件进行识别。
支持wav和mp3格式的音频文件，转换结果的准确率约为90%。
项目地址和更多信息可在GitHub上获取。

🏷️

开源初探 - stt

内容提要

关键要点

标签

继续阅读