【vLLM 学习】视觉语言嵌入

💡 原文英文,约500词,阅读约需2分钟。
📝

内容提要

本文介绍了如何使用vLLM进行离线推理,生成多模态嵌入,并展示了符合HuggingFace模型库规范的文本和图像提示格式。

🎯

关键要点

  • 本文介绍了如何使用vLLM进行离线推理。
  • 展示了在视觉语言模型上生成多模态嵌入的正确提示格式。
  • 提示格式应遵循HuggingFace模型库中的示例格式。
  • 定义了多种查询类型,包括文本查询、图像查询和文本+图像查询。
  • 提供了生成模型请求数据的函数,支持不同的查询模态。
  • 实现了两个主要的模型运行函数:run_e5_v和run_vlm2vec。
  • run_e5_v函数处理文本和图像的嵌入请求。
  • run_vlm2vec函数根据输入的文本或图像生成相应的提示。
  • 提供了获取查询的函数,根据模态返回相应的查询数据。
  • 主函数解析命令行参数并调用相应的模型运行函数。
➡️

继续阅读