💡
原文中文,约1500字,阅读约需4分钟。
📝
内容提要
Agent Voice Response (AVR) 是一个基于 Asterisk 的可部署对话式 AI 系统,支持灵活选择 ASR、LLM 和 TTS 服务。通过 Docker 启动 AVR 应用,管理客户与 VoIP PBX 的交互,实现语音转文本、AI 响应生成和文本转语音。该系统架构模块化,易于扩展和配置,支持实时音频流。
🎯
关键要点
- Agent Voice Response (AVR) 是基于 Asterisk 的可部署对话式 AI 系统。
- AVR 支持灵活选择 ASR、LLM 和 TTS 服务。
- 通过 Docker 启动 AVR 应用,管理客户与 VoIP PBX 的交互。
- AVR Infrastructure 项目旨在启动与 Asterisk Audiosocket 集成的 Core、ASR、LLM 和 TTS 服务。
- ASR 服务将语音转换为文本,支持 Google Cloud Speech-to-Text 和 Deepgram 等服务。
- LLM 服务处理客户交互的逻辑和响应,支持 OpenAI 和其他 AI 生成响应。
- TTS 服务将文本回复转换为音频,支持 Google Cloud Text-to-Speech 和 ElevenLabs 等服务。
- AVR 现在支持与 OpenAI Realtime 和 Ultravox Speech-to-Speech 集成。
- 模块化架构允许通过 API 使用任何 ASR、LLM 或 TTS 服务。
- 实时音频流管理客户和服务之间的互动。
- 简单配置通过环境变量设置 ASR、LLM 和 TTS 提供商。
- 可扩展设计易于与不同服务和 AI 提供商集成。
- AVR 工作流程包括接收音频流、转录、生成响应和播放语音回客户。
❓
延伸问答
AVR系统的主要功能是什么?
AVR系统主要用于管理客户与VoIP PBX之间的交互,支持语音转文本、AI响应生成和文本转语音。
AVR如何支持不同的ASR、LLM和TTS服务?
AVR通过模块化架构和API,允许用户灵活选择和集成任何ASR、LLM或TTS服务。
如何启动AVR应用程序?
可以通过Docker启动AVR应用程序,并使用基本的PJSIP配置进行测试。
AVR的工作流程是怎样的?
AVR的工作流程包括接收音频流、转录为文本、生成AI响应并将语音播放回客户。
AVR支持哪些ASR服务?
AVR支持Google Cloud Speech-to-Text和Deepgram等ASR服务。
AVR的可扩展性如何?
AVR设计为可扩展,易于与不同的服务和AI提供商集成。
➡️