解道jdon.com ·

Transformers.js实现浏览器内WebGPU加速的实时语音识别

💡 原文中文，约1000字，阅读约需3分钟。

📝

内容提要

Transformers.js是一个在浏览器中运行的Web机器学习库，支持多种任务，包括语音识别、自然语言处理、计算机视觉、音频和多模态。它使用ONNX Runtime在浏览器中运行模型，并支持将PyTorch、TensorFlow或JAX模型转换为ONNX。演示示例中的Whisper tiny模型可以在CPU上以实时速度运行。

🎯

关键要点

Transformers.js是一个在浏览器中运行的Web机器学习库。
支持多种任务，包括自然语言处理、计算机视觉、音频和多模态。
使用ONNX Runtime在浏览器中运行模型。
支持将PyTorch、TensorFlow或JAX模型转换为ONNX。
Whisper tiny模型可以在CPU上以实时速度运行。
提供与Hugging Face的transformers python库相似的API。
支持文本分类、命名实体识别、问答、语言建模、摘要、翻译等自然语言处理任务。
支持图像分类、物体检测和分割等计算机视觉任务。
支持自动语音识别和音频分类等音频任务。
支持零样本图像分类等多模态任务。
whisper-base模型支持100种不同语言的多语言转录。
演示链接提供实时语音识别的示例。

🏷️

继续阅读

Chrome 省内存、省电扩展 OneTab 更新，解决升级后内容丢失的情况
OneTab 是一款 Chrome 扩展，能够将多个标签页保存到后台，减少内存占用，提高浏览器速度和省电。最新版本新增标签页组功能，解决了内容丢失的问题。...
《现金苹果》在网络浏览器中点击树木的用户将获得50万美元的奖励
美国居民今天下午1点（太平洋时间）可以在网络游戏“现金苹果”中寻找金苹果，收集足够可获$40，每天最多五次，五天内总奖金为$500,000。
火狐浏览器将对UI界面进行大规模重新设计采用浮动式元素提供立体感
火狐浏览器正在进行名为Firefox Nova的UI界面大规模重新设计，采用丰富色彩和浮动元素，增强立体感。最终版本可能与早期模型有较大差异。
人工智能是五层蛋糕
五层蛋糕模型包括能源、芯片、基础设施、模型和应用。成功的应用依赖于每一层。全球正在进行大规模基础设施建设，急需技术工人。AI提升生产力，缓解医疗行业压力，...
研究发现，日常生活中机器人越少见的地方，人们对其的焦虑情绪越强
（全球TMT2026年3月10日讯）Hexagon发布的一项最新全球研究显示，世界各地的人们对机器人技术的看法 […]
腾讯「鹅虾」紧急上线！一手实测：养虾门槛归零，QQ飞书钉钉全能接
左手养qq虾，右手养微信虾

Transformers.js实现浏览器内WebGPU加速的实时语音识别

内容提要

关键要点

标签

继续阅读