山维空间 ·

【实用教程】在网页里集成语音输入：1. 在浏览器里完成录音

💡 原文中文，约3200字，阅读约需8分钟。

📝

内容提要

本文介绍了如何在网页中集成语音识别（STT）功能，通过使用MediaRecorder完成录音并提供相关代码。下一篇文章将介绍如何使用大模型API进行文字转换。

🎯

关键要点

本文介绍如何在网页中集成语音识别功能（STT）。
语音输入功能可以鼓励用户输入更多内容，适合移动设备和一体机使用。
文章计划内容包括基础概念、使用MediaRecorder完成录音、STT方案、WASM细节处理和总结。
基础概念部分提到系统自带语音输入质量可能不好，录音文件中包含用户情绪信息。
MediaRecorder用于录音，支持不同浏览器的文件格式处理。
使用navigator.mediaDevices捕获音视频流进行录音。
需要处理用户许可和不同浏览器的支持情况。
录音开始、数据变化和停止时的事件处理代码示例。
录音停止后需要处理语音文字转换和释放录音流。
下次文章将介绍如何使用大模型API进行文字转换。

🏷️

继续阅读

《现金苹果》在网络浏览器中点击树木的用户将获得50万美元的奖励
美国居民今天下午1点（太平洋时间）可以在网络游戏“现金苹果”中寻找金苹果，收集足够可获$40，每天最多五次，五天内总奖金为$500,000。
Mac技巧之在苹果电脑 macOS 上使用微信语音输入法
苹果电脑的语音输入识别率较低，建议使用微信语音输入。将微信升级至4.1.7以上，并设置快捷键为“所有窗口”，即可在多个软件中使用语音输入。
火狐浏览器将对UI界面进行大规模重新设计采用浮动式元素提供立体感
火狐浏览器正在进行名为Firefox Nova的UI界面大规模重新设计，采用丰富色彩和浮动元素，增强立体感。最终版本可能与早期模型有较大差异。
ICLR 2026 | 对抗扩散压缩算法在真实世界视频重建任务中的应用
现有扩散模型凭借强大的生成能力，在真实世界视频超分辨率（Real-VSR）任务中取得了显著进展。然而，由于依赖多步采样的重建过程，这类方法的推理速度较慢。...
短剧“变天”，AI真人剧产能暴涨千倍
短剧机会窗口期越来越短。数日前，“短剧变天”的传闻在行业引起了轩然大波，相关话题讨论连续数日霸屏微博热搜。3月7日，抖音集团副总裁李亮发微博回应称，红果会...
Neocloud(新兴云) 市场现状
Neocloud(新兴云) 市场现状性能专精，这正日益成为一些人所谓的“多计算策略”的重要组成部分。总的来说，这意味着企业使用超大规模数据中心处理通用工作...

【实用教程】在网页里集成语音输入：1. 在浏览器里完成录音

内容提要

关键要点

标签

继续阅读