Vercel News ·

在AI Gateway上构建实时语音代理

💡 原文英文，约800词，阅读约需3分钟。

📝

内容提要

AI Gateway现已支持音频和语音功能，包括实时语音、文本转语音和语音转文本。用户可以通过AI SDK 7使用这些功能，确保安全和便捷。

🎯

🔎

实时语音功能使得用户可以与应用进行自然对话，适用于客服、语音助手等场景。与传统的文本输入相比，语音交互更为便捷，能够提升用户体验，尤其在需要快速反馈的情况下。

文本转语音和语音转文本功能可以相辅相成，用户可以先生成音频，再进行转录，快速验证内容的准确性。这种组合使用在内容创作和语音备忘录等领域具有重要意义。

通过AI Gateway进行音频调用时，用户的API密钥不会暴露在客户端，确保了安全性。同时，统一的API管理使得开发者在集成多种功能时更加便捷，降低了开发复杂度。

❓

AI Gateway支持实时语音、文本转语音和语音转文本功能。

用户可以通过AI SDK 7使用实时语音功能，允许与应用进行即时对话。

文本转语音功能可以将文本生成音频，适用于语音响应和音频版本的内容。

语音转文本功能可以将录音转录为文本，支持多种音频输入格式。

所有音频调用通过AI Gateway进行，使用API密钥管理不同服务，确保安全性。

实时语音功能允许用户即时对话，模型可以立即响应，而传统模型需要经过多个步骤处理。

🏷️