avr-infra:基于 Asterisk 集成 Core、ASR、LLM 和 TTS 开源服务

avr-infra:基于 Asterisk 集成 Core、ASR、LLM 和 TTS 开源服务

💡 原文中文,约1500字,阅读约需4分钟。
📝

内容提要

Agent Voice Response (AVR) 是一个基于 Asterisk 的可部署对话式 AI 系统,支持灵活选择 ASR、LLM 和 TTS 服务。通过 Docker 启动 AVR 应用,管理客户与 VoIP PBX 的交互,实现语音转文本、AI 响应生成和文本转语音。该系统架构模块化,易于扩展和配置,支持实时音频流。

🎯

关键要点

  • Agent Voice Response (AVR) 是基于 Asterisk 的可部署对话式 AI 系统。
  • AVR 支持灵活选择 ASR、LLM 和 TTS 服务。
  • 通过 Docker 启动 AVR 应用,管理客户与 VoIP PBX 的交互。
  • AVR Infrastructure 项目旨在启动与 Asterisk Audiosocket 集成的 Core、ASR、LLM 和 TTS 服务。
  • ASR 服务将语音转换为文本,支持 Google Cloud Speech-to-Text 和 Deepgram 等服务。
  • LLM 服务处理客户交互的逻辑和响应,支持 OpenAI 和其他 AI 生成响应。
  • TTS 服务将文本回复转换为音频,支持 Google Cloud Text-to-Speech 和 ElevenLabs 等服务。
  • AVR 现在支持与 OpenAI Realtime 和 Ultravox Speech-to-Speech 集成。
  • 模块化架构允许通过 API 使用任何 ASR、LLM 或 TTS 服务。
  • 实时音频流管理客户和服务之间的互动。
  • 简单配置通过环境变量设置 ASR、LLM 和 TTS 提供商。
  • 可扩展设计易于与不同服务和 AI 提供商集成。
  • AVR 工作流程包括接收音频流、转录、生成响应和播放语音回客户。

延伸问答

AVR系统的主要功能是什么?

AVR系统主要用于管理客户与VoIP PBX之间的交互,支持语音转文本、AI响应生成和文本转语音。

AVR如何支持不同的ASR、LLM和TTS服务?

AVR通过模块化架构和API,允许用户灵活选择和集成任何ASR、LLM或TTS服务。

如何启动AVR应用程序?

可以通过Docker启动AVR应用程序,并使用基本的PJSIP配置进行测试。

AVR的工作流程是怎样的?

AVR的工作流程包括接收音频流、转录为文本、生成AI响应并将语音播放回客户。

AVR支持哪些ASR服务?

AVR支持Google Cloud Speech-to-Text和Deepgram等ASR服务。

AVR的可扩展性如何?

AVR设计为可扩展,易于与不同的服务和AI提供商集成。

🏷️

标签

➡️

继续阅读