freeCodeCamp.org ·

如何使用Web Speech API构建语音驱动的AI应用程序

💡 原文英文，约3700词，阅读约需14分钟。

📝

内容提要

本文介绍了如何使用Web Speech API构建一个全栈应用程序，该应用程序能够接收音频输入并将其转录为文本，随后将文本发送给AI助手并显示其响应。文章详细说明了前端和后端的构建过程，包括使用Node.js创建后端，集成AI助手，以及使用Vite构建前端。最后，介绍了如何将应用程序部署到Google Cloud Run和Firebase。

🎯

关键要点

Web Speech API 允许网页应用使用声音作为数据，能够将音频输入转录为文本并合成语音。
本文指导如何构建一个全栈应用程序，接收音频输入并将其转录为文本，随后将文本发送给 AI 助手并显示响应。
应用程序分为前端和后端，前端使用 SpeechRecognition API 接受语音输入并转录，后端使用 Node.js 提供 AI 助手的支持。
后端应用接收来自前端的文本提示，向 AI 助手发送请求并返回响应。
前端应用使用 Vite 构建，能够接受语音提示、转录并显示响应。
应用程序可以选择部署到 Google Cloud Run 和 Firebase，以便公开访问。
在构建过程中，需要确保浏览器支持 Web Speech API，并配置 Node.js 环境和 AI 助手的 API 密钥。
部署后，需更新后端应用的 ALLOWED_ORIGINS 环境变量，以允许来自前端的请求。

❓

延伸问答

Web Speech API的主要功能是什么？

Web Speech API允许网页应用使用声音作为数据，能够将音频输入转录为文本并合成语音。

如何构建一个使用Web Speech API的全栈应用程序？

构建全栈应用程序需要创建前端和后端，前端使用SpeechRecognition API接收语音输入并转录，后端使用Node.js处理AI助手的请求。

如何将应用程序部署到Google Cloud Run和Firebase？

可以通过Google Cloud CLI将后端应用部署到Google Cloud Run，并使用Firebase CLI将前端应用部署到Firebase。

在构建应用程序时需要哪些前提条件？

需要具备HTML、CSS和JavaScript的基础知识，安装Node.js和npm，并拥有AI助手的API密钥。

如何处理前端与后端之间的请求？

前端将转录的文本通过API请求发送到后端，后端接收请求并将文本发送给AI助手，最后将响应返回给前端。

如何确保浏览器支持Web Speech API？

需要检查浏览器是否支持SpeechRecognition，如果不支持，则提示用户使用支持的浏览器，如Google Chrome。

🏷️

继续阅读

WPS笔记正式发布：AI贯穿记录、整理与复用全过程
金山办公于6月5日发布了AI笔记产品WPS笔记，旨在提升个人知识管理。该产品支持语音、图片和文字等多种信息录入方式，强调信息的主动理解与复用。通过多级AI...
知识图谱+本地存储：开源Mnemo给AI配的长期记忆中枢
Mnemo是为大语言模型设计的本地优先长期记忆层，旨在解决AI每次会话忘记上下文的问题。它通过构建知识图谱存储历史对话和信息，帮助AI在后续提问中自动召回...
早报｜苹果App Store四成头部应用已支持AI/千问上线肯德基skill/奈雪擦边LABUBU被判赔32万
腾讯客服表示，微信与华为、小米等厂商合作推出A2A助手，用户可通过AI助手发起微信通话或发送消息。荣耀部分机型已支持此功能，确保数据安全与隐私。
Asana称其新的AI“首席助理”将您的Slack混乱转化为可追踪的工作
Asana在伦敦的工作创新峰会上推出了名为Dash的AI助手，旨在提升工作管理平台的效率。Dash能够从会议、Slack和邮件中捕捉待办事项，并将其转化为...
[开源] 阿里巴巴发布AI驱动的代码审查工具Open Code Review 帮助开发者审查代码
阿里巴巴开源了基于人工智能的代码审查工具Open Code Review（OCR），旨在解决传统审查中的覆盖不全、位置漂移和不稳定等问题。开发者可通过配置...
我们在2026年5月发布的最新AI新闻
谷歌在2026年5月推出了多个AI相关产品，包括Gemini 3.5和Gemini Omni，旨在提升日常生活便利性。新应用Google Health和F...