【vLLM 学习】Vision Language Embedding
💡
原文中文,约4300字,阅读约需11分钟。
📝
内容提要
本文介绍了如何使用vLLM进行离线推理,生成多模态嵌入,并展示了符合HuggingFace模型库规范的文本和图像提示格式。
🎯
关键要点
- 本文介绍了如何使用vLLM进行离线推理。
- 展示了在视觉语言模型上生成多模态嵌入的正确提示格式。
- 提示格式应遵循HuggingFace模型库中的示例格式。
- 定义了多种查询类型,包括文本查询、图像查询和文本+图像查询。
- 提供了生成模型请求数据的函数,支持不同的查询模态。
- 实现了两个主要的模型运行函数:run_e5_v和run_vlm2vec。
- run_e5_v函数处理文本和图像的嵌入请求。
- run_vlm2vec函数根据输入的文本或图像生成相应的提示。
- 提供了获取查询的函数,根据模态返回相应的查询数据。
- 主函数解析命令行参数并调用相应的模型运行函数。
❓
延伸问答
vLLM是什么?
vLLM是一种用于离线推理的模型,能够生成多模态嵌入。
如何使用vLLM生成多模态嵌入?
使用vLLM时,需要遵循HuggingFace模型库中的提示格式,并调用相应的模型运行函数。
vLLM支持哪些查询模态?
vLLM支持文本查询、图像查询和文本+图像查询三种模态。
run_e5_v函数的作用是什么?
run_e5_v函数用于处理文本和图像的嵌入请求,并生成相应的提示。
如何获取查询数据?
可以使用get_query函数,根据指定的模态返回相应的查询数据。
vLLM的主要模型运行函数有哪些?
vLLM的主要模型运行函数包括run_e5_v和run_vlm2vec。
🏷️
标签
➡️