💡
原文中文,约1500字,阅读约需4分钟。
📝
内容提要
Agent Voice Response (AVR) 是一个基于 Asterisk 的可部署对话式 AI 系统,支持灵活选择 ASR、LLM 和 TTS 服务。通过 Docker 启动 AVR 应用,管理客户与 VoIP PBX 的交互,实现语音转文本、AI 响应生成和文本转语音。该系统架构模块化,易于扩展和配置,支持实时音频流。
🎯
关键要点
- Agent Voice Response (AVR) 是基于 Asterisk 的可部署对话式 AI 系统。
- AVR 支持灵活选择 ASR、LLM 和 TTS 服务。
- 通过 Docker 启动 AVR 应用,管理客户与 VoIP PBX 的交互。
- AVR Infrastructure 项目旨在启动与 Asterisk Audiosocket 集成的 Core、ASR、LLM 和 TTS 服务。
- ASR 服务将语音转换为文本,支持 Google Cloud Speech-to-Text 和 Deepgram 等服务。
- LLM 服务处理客户交互的逻辑和响应,支持 OpenAI 和其他 AI 生成响应。
- TTS 服务将文本回复转换为音频,支持 Google Cloud Text-to-Speech 和 ElevenLabs 等服务。
- AVR 现在支持与 OpenAI Realtime 和 Ultravox Speech-to-Speech 集成。
- 模块化架构允许通过 API 使用任何 ASR、LLM 或 TTS 服务。
- 实时音频流管理客户和服务之间的互动。
- 简单配置通过环境变量设置 ASR、LLM 和 TTS 提供商。
- 可扩展设计易于与不同服务和 AI 提供商集成。
- AVR 工作流程包括接收音频流、转录、生成响应和播放语音回客户。
➡️