DEV Community ·

使用Python和OpenAI进行音频转文字

💡 原文英文，约1100词，阅读约需4分钟。

📝

内容提要

本文讲解如何用Python构建音频转文字应用，使用OpenAI API、pydub和python-dotenv库。内容涵盖项目设置、库安装、API密钥配置及代码编写。核心功能是将音频转换为单声道16kHz格式，并用Whisper API转录。示例代码展示了具体实现。

🎯

🔎

在构建音频转文字应用时，正确的环境设置至关重要。确保安装Python及相关库（如openai、pydub和python-dotenv）可以避免后续开发中的许多问题。此外，使用FFmpeg进行音频处理也是必不可少的，这样可以确保音频文件格式符合转录要求。

在使用OpenAI API时，妥善管理API密钥非常重要。将密钥存储在.env文件中可以有效防止泄露，确保应用的安全性。开发者应避免将密钥硬编码在代码中，以降低被滥用的风险。

将音频转换为单声道16kHz格式是使用Whisper API进行转录的前提。这一过程不仅提高了转录的准确性，还能减少处理时的计算负担。开发者在实现时应注意音频文件的质量，以确保最佳的转录效果。

❓

可以使用OpenAI API、pydub和python-dotenv库来构建音频转文字应用，具体步骤包括项目设置、库安装和代码编写。

可以通过命令行输入 'pip install openai pydub python-dotenv' 来安装所需的库，并根据操作系统安装FFmpeg。

需要在OpenAI网站上生成API密钥，并将其保存在项目中的.env文件中，以便在代码中使用。

使用pydub库中的AudioSegment类，可以将音频文件转换为单声道并设置采样率为16kHz。

通过调用transcribe_audio函数，将转换后的音频文件传递给Whisper API进行转录，返回文本结果。

最终输出是从音频文件中提取的文本，显示在终端中。

🏷️