【vLLM 学习】视觉语言嵌入
💡
原文英文,约500词,阅读约需2分钟。
📝
内容提要
本文介绍了如何使用vLLM进行离线推理,生成多模态嵌入,并展示了符合HuggingFace模型库规范的文本和图像提示格式。
🎯
关键要点
- 本文介绍了如何使用vLLM进行离线推理。
- 展示了在视觉语言模型上生成多模态嵌入的正确提示格式。
- 提示格式应遵循HuggingFace模型库中的示例格式。
- 定义了多种查询类型,包括文本查询、图像查询和文本+图像查询。
- 提供了生成模型请求数据的函数,支持不同的查询模态。
- 实现了两个主要的模型运行函数:run_e5_v和run_vlm2vec。
- run_e5_v函数处理文本和图像的嵌入请求。
- run_vlm2vec函数根据输入的文本或图像生成相应的提示。
- 提供了获取查询的函数,根据模态返回相应的查询数据。
- 主函数解析命令行参数并调用相应的模型运行函数。
🏷️
标签
➡️