DEV Community ·

使用实时API通过本地麦克风和扬声器进行对话

💡 原文英文，约500词，阅读约需2分钟。

📝

内容提要

本文讲解如何修改Python应用，通过本地麦克风实时接收音频，并通过扬声器输出OpenAI和Azure Realtime API返回的音频。主要使用pyaudio库，代码可在GitHub获取，易于集成。

🎯

关键要点

本文讲解如何修改Python应用，通过本地麦克风实时接收音频，并通过扬声器输出OpenAI和Azure Realtime API返回的音频。
主要使用pyaudio库，代码可在GitHub获取，易于集成。
修改后的代码支持实时音频输入，基于low_level_sample.py。
实现音频输入的代码使用pyaudio捕获本地麦克风的音频数据，并实时发送给Realtime API。
pyaudio.PyAudio()用于操作音频设备。
get_default_input_device_info()获取默认输入设备信息。
stream.read()捕获实时音频数据以发送给API。
实现音频输出的代码将Realtime API返回的音频数据通过扬声器输出。
get_default_output_device_info()获取默认输出设备（扬声器）。
stream.write()实时输出解码后的音频数据到扬声器。
接收音频数据的长度用于调整播放时机，减少音频延迟。

❓

延伸问答

如何使用Python通过本地麦克风接收实时音频？

可以使用pyaudio库，通过stream.read()捕获本地麦克风的音频数据，并实时发送给Realtime API。

如何将Realtime API返回的音频输出到扬声器？

使用pyaudio库的stream.write()方法，将解码后的音频数据实时输出到扬声器。

pyaudio库在这个应用中有什么作用？

pyaudio库用于操作音频设备，捕获和输出音频数据。

如何获取默认的音频输入和输出设备信息？

可以使用get_default_input_device_info()和get_default_output_device_info()函数获取默认设备信息。

如何减少音频延迟？

通过调整接收音频数据的长度来优化播放时机，从而减少音频延迟。

修改后的Python代码在哪里可以找到？

修改后的代码可以在GitHub上找到，易于集成到其他项目中。

🏷️

标签

Azure OpenAI Python api pyaudio 音频

➡️

继续阅读

如何构建具有工具调用和记忆功能的本地AI代理
本文介绍了如何使用LangChain v1、Ollama和Python构建一个具有工具调用和短期记忆的本地AI代理。该代理能够自主决定何时调用工具，并记住...
那个当面把马斯克怼到破防的刺头，也离开 OpenAI 了
马斯克与Joshua Achiam的争执成为法庭焦点。Achiam在OpenAI工作期间因质疑马斯克的AGI计划而被骂为“蠢驴”。他后来成为首席未来学家，...
在美国政府批准后，GPT-5.6系列模型将在明天向全球用户开放使用
OpenAI 宣布将于 7 月 9 日推出 GPT-5.6 系列模型，包括旗舰版 Sol、均衡版 Terra 和实惠版 Luna。这些模型经过美国政府审核...
一个共享内存锁引发的思考
本项目探讨了Rust与Python之间的视频帧通信，采用共享内存技术替代管道方案，使用pyinstaller简化Python部署，并通过raw_sync创...
使用Gemma 4进行零样本本地文档解析：将PDF视为图像
Gemma 4是谷歌DeepMind推出的文档解析工具，能够处理扫描和数字PDF，提取发票信息。它通过将PDF页面渲染为高分辨率图像，利用视觉语言模型读取...
本地模型在编码中的可行性
本文探讨了在本地运行生成模型进行编码的可行性，分析了影响模型性能的因素，如内存、处理器核心、模型参数和推理能力。尽管小型模型在工具调用上存在困难，但Qwe...