小红花·文摘

该示例展示了如何使用vLLM在视觉语言模型上进行离线推理，处理多图像输入并生成文本，利用模型定义的对话模板。

HyperAI超神经 ·

本文介绍了如何使用vLLM进行离线推理，生成多模态嵌入，并展示了符合HuggingFace模型库规范的文本和图像提示格式。

HyperAI超神经 ·

本文介绍了如何使用vLLM进行离线推理，特别是在视觉语言模型中采用正确的提示格式进行文本生成。示例展示了多种模型的提示格式和参数设置，以确保在不同GPU上有效运行。

HyperAI超神经 ·

该示例展示了如何使用多路线功能进行离线推理，需HuggingFace凭证访问Llama2，并使用LoRA适配器进行SQL查询。

HyperAI超神经 ·

DeepSeek研究员俞星凯用不到1200行代码复刻了vLLM，命名为Nano-vLLM，具备快速离线推理和良好的可读性。在H800硬件上，Nano-vLLM的性能超越原版，展现出高效性和简洁性。

量子位 ·

Modular Blog ·