【vLLM 学习】使用 OpenAI 批处理文件格式进行离线推理
💡
原文中文,约9500字,阅读约需23分钟。
📝
内容提要
vLLM 是一款加速大语言模型推理的框架,解决了内存管理瓶颈,支持 OpenAI 批处理文件格式,用户可通过命令行进行批量推理,兼容多种模型和请求类型。
🎯
关键要点
- vLLM 是一款加速大语言模型推理的框架,解决了内存管理瓶颈。
- vLLM 支持 OpenAI 批处理文件格式,用户可通过命令行进行批量推理。
- OpenAI 批处理文件格式由多行 JSON 对象组成,每行代表一个独立请求。
- vLLM 目前支持 /v1/chat/completions、/v1/embeddings 和 /v1/score 端点。
- 用户需创建访问令牌并同意条款以获取受限模型访问权限。
- 批处理工具通过命令行运行,结果将写入指定文件。
- 支持通过 http/https 访问的远程输入输出 URL。
- 与 AWS S3 集成时,推荐使用预签名 URL 进行文件操作。
- 用户可以在批处理文件中混合 chat completion 和 embedding 请求。
- 确保使用 vllm >= 0.5.5 版本以支持 embedding 端点。
- 确保使用 vllm >= 0.7.0 版本以支持 score 端点。
❓
延伸问答
vLLM 是什么?
vLLM 是一款加速大语言模型推理的框架,解决了内存管理瓶颈。
如何使用 OpenAI 批处理文件格式进行批量推理?
用户需创建批处理文件,使用命令行运行批处理工具,结果将写入指定文件。
vLLM 支持哪些 API 端点?
vLLM 目前支持 /v1/chat/completions、/v1/embeddings 和 /v1/score 端点。
如何在 vLLM 中混合使用不同类型的请求?
用户可以在批处理文件中混合 chat completion 和 embedding 请求,只要使用的模型支持这两种功能。
使用 vLLM 进行远程文件处理时需要注意什么?
批处理运行器支持通过 http/https 访问的远程输入输出 URL,建议使用预签名 URL 进行文件操作。
如何确保 vLLM 支持 embedding 和 score 端点?
确保使用 vllm >= 0.5.5 版本以支持 embedding 端点,使用 vllm >= 0.7.0 版本以支持 score 端点。
➡️