Transformers.js实现浏览器内WebGPU加速的实时语音识别

💡 原文中文,约1000字,阅读约需3分钟。
📝

内容提要

Transformers.js是一个在浏览器中运行的Web机器学习库,支持多种任务,包括语音识别、自然语言处理、计算机视觉、音频和多模态。它使用ONNX Runtime在浏览器中运行模型,并支持将PyTorch、TensorFlow或JAX模型转换为ONNX。演示示例中的Whisper tiny模型可以在CPU上以实时速度运行。

🎯

关键要点

  • Transformers.js是一个在浏览器中运行的Web机器学习库。
  • 支持多种任务,包括自然语言处理、计算机视觉、音频和多模态。
  • 使用ONNX Runtime在浏览器中运行模型。
  • 支持将PyTorch、TensorFlow或JAX模型转换为ONNX。
  • Whisper tiny模型可以在CPU上以实时速度运行。
  • 提供与Hugging Face的transformers python库相似的API。
  • 支持文本分类、命名实体识别、问答、语言建模、摘要、翻译等自然语言处理任务。
  • 支持图像分类、物体检测和分割等计算机视觉任务。
  • 支持自动语音识别和音频分类等音频任务。
  • 支持零样本图像分类等多模态任务。
  • whisper-base模型支持100种不同语言的多语言转录。
  • 演示链接提供实时语音识别的示例。
➡️

继续阅读