DEV Community ·

如何使用ffmpeg和Whisper创建视频转录

💡 原文英文，约300词，阅读约需1分钟。

📝

内容提要

本文介绍了在macOS、Windows和Linux上安装ffmpeg和Whisper的步骤，以及如何提取视频音频并进行转录，提供了不同模型和输出格式的选项，以满足不同需求。

🎯

安装ffmpeg和Whisper的系统要求包括ffmpeg、Whisper和Python 3.10以上版本。
在macOS上安装步骤包括安装Homebrew、ffmpeg和Whisper。
在Windows上安装步骤包括安装Chocolatey、ffmpeg和Whisper。
在Linux上安装步骤包括更新apt并安装ffmpeg、Python和Whisper。
使用ffmpeg提取视频音频的命令为ffmpeg -i input_video.mp4 -vn -acodec mp3 output.mp3。
使用Whisper进行音频转录的命令为whisper output.mp3 --language English --model small --output_format txt。
Whisper模型选项包括tiny、base、small、medium和large，分别对应不同的速度和准确性。
输出格式选项包括txt、srt、vtt和json，适用于不同的需求。
附加选项包括--task translate用于翻译非英语音频，--language en用于指定源语言，--model用于选择模型大小。

🔎

在安装ffmpeg和Whisper之前，确保你的系统满足要求，包括ffmpeg、Whisper和Python 3.10以上版本。不同操作系统的安装步骤略有不同，用户需根据自己的系统选择合适的方法，避免因环境不兼容导致的安装失败。

Whisper提供多种模型选项，从tiny到large，用户可以根据需要选择合适的模型。较小的模型如tiny和base速度快，但准确性较低，而large模型则提供最佳准确性，但需要更多的内存和计算资源。选择时需考虑实际应用场景与设备性能。

Whisper支持多种输出格式，包括txt、srt、vtt和json，适用于不同的需求。用户在选择输出格式时，应考虑后续使用场景，例如视频字幕、文本记录或数据分析，以确保转录结果的有效性和可用性。

❓

在macOS上，首先安装Homebrew，然后使用命令'brew install ffmpeg'安装ffmpeg，接着使用'pip3 install git+https://github.com/openai/whisper.git'安装Whisper。

在Windows上，首先安装Chocolatey，然后运行'choco install ffmpeg'安装ffmpeg，最后使用'pip install -U openai-whisper'安装Whisper。

使用命令'ffmpeg -i input_video.mp4 -vn -acodec mp3 output.mp3'可以提取视频的音频。

Whisper支持的模型选项包括tiny、base、small、medium和large，分别对应不同的速度和准确性。

Whisper的输出格式包括txt、srt、vtt和json，适用于不同的需求。

使用命令'whisper output.mp3 --language English --model small --output_format txt'可以进行音频转录。

🏷️