Transformers.js实现浏览器内WebGPU加速的实时语音识别
💡
原文中文,约1000字,阅读约需3分钟。
📝
内容提要
Transformers.js是一个在浏览器中运行的Web机器学习库,支持多种任务,包括语音识别、自然语言处理、计算机视觉、音频和多模态。它使用ONNX Runtime在浏览器中运行模型,并支持将PyTorch、TensorFlow或JAX模型转换为ONNX。演示示例中的Whisper tiny模型可以在CPU上以实时速度运行。
🎯
关键要点
- Transformers.js是一个在浏览器中运行的Web机器学习库。
- 支持多种任务,包括自然语言处理、计算机视觉、音频和多模态。
- 使用ONNX Runtime在浏览器中运行模型。
- 支持将PyTorch、TensorFlow或JAX模型转换为ONNX。
- Whisper tiny模型可以在CPU上以实时速度运行。
- 提供与Hugging Face的transformers python库相似的API。
- 支持文本分类、命名实体识别、问答、语言建模、摘要、翻译等自然语言处理任务。
- 支持图像分类、物体检测和分割等计算机视觉任务。
- 支持自动语音识别和音频分类等音频任务。
- 支持零样本图像分类等多模态任务。
- whisper-base模型支持100种不同语言的多语言转录。
- 演示链接提供实时语音识别的示例。
➡️