【vLLM 学习】使用 OpenAI 批处理文件格式进行离线推理

💡 原文中文,约9500字,阅读约需23分钟。
📝

内容提要

vLLM 是一款加速大语言模型推理的框架,解决了内存管理瓶颈,支持 OpenAI 批处理文件格式,用户可通过命令行进行批量推理,兼容多种模型和请求类型。

🎯

关键要点

  • vLLM 是一款加速大语言模型推理的框架,解决了内存管理瓶颈。
  • vLLM 支持 OpenAI 批处理文件格式,用户可通过命令行进行批量推理。
  • OpenAI 批处理文件格式由多行 JSON 对象组成,每行代表一个独立请求。
  • vLLM 目前支持 /v1/chat/completions、/v1/embeddings 和 /v1/score 端点。
  • 用户需创建访问令牌并同意条款以获取受限模型访问权限。
  • 批处理工具通过命令行运行,结果将写入指定文件。
  • 支持通过 http/https 访问的远程输入输出 URL。
  • 与 AWS S3 集成时,推荐使用预签名 URL 进行文件操作。
  • 用户可以在批处理文件中混合 chat completion 和 embedding 请求。
  • 确保使用 vllm >= 0.5.5 版本以支持 embedding 端点。
  • 确保使用 vllm >= 0.7.0 版本以支持 score 端点。

延伸问答

vLLM 是什么?

vLLM 是一款加速大语言模型推理的框架,解决了内存管理瓶颈。

如何使用 OpenAI 批处理文件格式进行批量推理?

用户需创建批处理文件,使用命令行运行批处理工具,结果将写入指定文件。

vLLM 支持哪些 API 端点?

vLLM 目前支持 /v1/chat/completions、/v1/embeddings 和 /v1/score 端点。

如何在 vLLM 中混合使用不同类型的请求?

用户可以在批处理文件中混合 chat completion 和 embedding 请求,只要使用的模型支持这两种功能。

使用 vLLM 进行远程文件处理时需要注意什么?

批处理运行器支持通过 http/https 访问的远程输入输出 URL,建议使用预签名 URL 进行文件操作。

如何确保 vLLM 支持 embedding 和 score 端点?

确保使用 vllm >= 0.5.5 版本以支持 embedding 端点,使用 vllm >= 0.7.0 版本以支持 score 端点。

➡️

继续阅读