Transformers.js实现浏览器内WebGPU加速的实时语音识别

💡 原文中文,约1000字,阅读约需3分钟。
📝

内容提要

Transformers.js是一个在浏览器中运行的Web机器学习库,支持多种任务,包括语音识别、自然语言处理、计算机视觉、音频和多模态。它使用ONNX Runtime在浏览器中运行模型,并支持将PyTorch、TensorFlow或JAX模型转换为ONNX。演示示例中的Whisper tiny模型可以在CPU上以实时速度运行。

🎯

关键要点

  • Transformers.js是一个在浏览器中运行的Web机器学习库。
  • 支持多种任务,包括自然语言处理、计算机视觉、音频和多模态。
  • 使用ONNX Runtime在浏览器中运行模型。
  • 支持将PyTorch、TensorFlow或JAX模型转换为ONNX。
  • Whisper tiny模型可以在CPU上以实时速度运行。
  • 提供与Hugging Face的transformers python库相似的API。
  • 支持文本分类、命名实体识别、问答、语言建模、摘要、翻译等自然语言处理任务。
  • 支持图像分类、物体检测和分割等计算机视觉任务。
  • 支持自动语音识别和音频分类等音频任务。
  • 支持零样本图像分类等多模态任务。
  • whisper-base模型支持100种不同语言的多语言转录。
  • 演示链接提供实时语音识别的示例。

延伸问答

Transformers.js是什么?

Transformers.js是一个在浏览器中运行的Web机器学习库,支持多种任务。

Transformers.js支持哪些机器学习任务?

它支持自然语言处理、计算机视觉、音频和多模态等多种任务。

如何将PyTorch模型转换为ONNX格式?

可以使用Optimum轻松将预训练的PyTorch、TensorFlow或JAX模型转换为ONNX。

Whisper tiny模型的性能如何?

Whisper tiny模型可以在CPU上以实时速度运行。

Transformers.js与Hugging Face的transformers库有什么相似之处?

Transformers.js的设计功能与Hugging Face的transformers python库相同,API非常相似。

Whisper-base模型支持多少种语言的转录?

Whisper-base模型支持100种不同语言的多语言转录。

➡️

继续阅读