量子位 ·

开源版SearchGPT来了，两张3090就可复现，超越Perplexity付费版

💡 原文中文，约3800字，阅读约需9分钟。

📝

内容提要

开源的视觉搜索助手（VSA）模型已发布，使用两张RTX3090即可复现。VSA结合视觉语言模型，实时更新知识，提升图像处理能力，超越Perplexity付费版，适用于多模态研究，在开放集问答中表现卓越。

🎯

🔎

Vision Search Assistant（VSA）作为开源模型，具备了实时更新知识的能力，能够处理未见过的图像和新概念。这使得VSA在多模态研究中展现出广阔的应用前景，尤其是在医学、表格等特定领域的图像处理上，未来可能会有更多针对性的应用开发。

VSA在开放集问答中表现优于Perplexity和GPT-4-Web，尤其在真实性、相关性和支持性三个维度上均有显著优势。这表明VSA在处理新信息和提供准确答案方面的能力，可能会对现有的问答系统形成挑战，推动行业技术进步。

VSA的实现仅需两张RTX3090显卡，降低了技术门槛，使得更多研究者和开发者能够参与到多模态研究中。这种可行性不仅促进了开源社区的发展，也为相关技术的普及和应用提供了基础，值得关注其后续的技术迭代和优化。

❓

Vision Search Assistant（VSA）是一种开源的视觉搜索助手模型，结合了视觉语言模型（VLM），能够实时更新知识并提升图像处理能力。

使用VSA只需两张RTX3090显卡即可复现该模型。

VSA在开放集问答中表现卓越，优于Perplexity付费版，并在真实性、相关性和支持性三个维度上均表现出色。

VSA能够理解查询，关注图像中的对象，推断对象之间的相关性，并生成相关的查询文本来回答关于未见过的图像和新概念的问题。

VSA的搜索链算法是一个迭代过程，通过生成相关子问题并利用LLM分析搜索引擎返回的内容，从而获取与视觉内容相关的Web知识。

在闭集评估中，VSA的整体性能为84.9%，在对话、细节和推理任务中均表现出色。

🏷️