【vLLM 学习】Vision Language Embedding

💡 原文中文,约4300字,阅读约需11分钟。
📝

内容提要

本文介绍了如何使用vLLM进行离线推理,生成多模态嵌入,并展示了符合HuggingFace模型库规范的文本和图像提示格式。

🎯

关键要点

  • 本文介绍了如何使用vLLM进行离线推理。
  • 展示了在视觉语言模型上生成多模态嵌入的正确提示格式。
  • 提示格式应遵循HuggingFace模型库中的示例格式。
  • 定义了多种查询类型,包括文本查询、图像查询和文本+图像查询。
  • 提供了生成模型请求数据的函数,支持不同的查询模态。
  • 实现了两个主要的模型运行函数:run_e5_v和run_vlm2vec。
  • run_e5_v函数处理文本和图像的嵌入请求。
  • run_vlm2vec函数根据输入的文本或图像生成相应的提示。
  • 提供了获取查询的函数,根据模态返回相应的查询数据。
  • 主函数解析命令行参数并调用相应的模型运行函数。

延伸问答

vLLM是什么?

vLLM是一种用于离线推理的模型,能够生成多模态嵌入。

如何使用vLLM生成多模态嵌入?

使用vLLM时,需要遵循HuggingFace模型库中的提示格式,并调用相应的模型运行函数。

vLLM支持哪些查询模态?

vLLM支持文本查询、图像查询和文本+图像查询三种模态。

run_e5_v函数的作用是什么?

run_e5_v函数用于处理文本和图像的嵌入请求,并生成相应的提示。

如何获取查询数据?

可以使用get_query函数,根据指定的模态返回相应的查询数据。

vLLM的主要模型运行函数有哪些?

vLLM的主要模型运行函数包括run_e5_v和run_vlm2vec。

➡️

继续阅读