御坂研究所 ·

利用 whisper 为视频自动生成字幕

💡 原文中文，约3800字，阅读约需9分钟。

📝

内容提要

使用OpenAI的Whisper模型为视频自动生成字幕。首先安装Miniconda和CUDA，创建whisper环境，安装cuDNN和PyTorch。然后使用Whisper识别音频生成字幕，最后用FFmpeg将字幕添加到视频中。

🎯

使用OpenAI的Whisper模型为视频自动生成字幕。
首先安装Miniconda和CUDA，创建whisper环境。
安装CUDA时需选择Development和Runtime选项。
安装cuDNN并确保安装成功。
在whisper环境中安装PyTorch。
使用Whisper识别音频生成字幕，命令示例为whisper 'C:/Users/raymond/Desktop/voice.aac' --language zh --model turbo。
使用FFmpeg提取视频中的音频并生成字幕。
将生成的字幕文件添加到视频中，命令示例为ffmpeg -i input.mp4 -i output.srt -c:s mov_text -c:v copy -c:a copy output.mp4。

🔎

在使用Whisper生成字幕之前，确保正确配置环境至关重要。安装CUDA和cuDNN时，选择合适的版本和选项可以显著提高模型的运行效率。尤其是在处理大型视频文件时，GPU加速能够大幅缩短处理时间。

自动生成字幕不仅提高了视频内容的可访问性，还能帮助观众更好地理解视频信息。对于教育、培训和营销视频，字幕的存在能够增强信息传达的效果，吸引更多观众的注意力。

FFmpeg作为一个强大的多媒体处理工具，提供了丰富的命令选项，可以灵活处理音频和视频文件。通过提取音频、生成字幕并将其合并到视频中，用户可以根据需要自定义视频内容，提升观看体验。

❓

首先安装Miniconda，然后创建名为whisper的环境。接着安装CUDA，选择Development和Runtime选项，最后确认CUDA安装成功。

使用命令whisper 'C:/Users/raymond/Desktop/voice.aac' --language zh --model turbo来识别音频并生成字幕。

使用命令ffmpeg -i input.mp4 -i output.srt -c:s mov_text -c:v copy -c:a copy output.mp4将字幕添加到视频中。

下载对应版本的cuDNN，解压到CUDA的安装目录下，并在extras/demo_suite目录下执行bandwidthTest.exe和deviceQuery.exe确认安装成功。

切换到whisper环境，使用命令pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118安装PyTorch。

生成的字幕文件会保存在执行代码时指定的目录，例如E:/目录下。

🏷️