开源版SearchGPT来了,两张3090就可复现,超越Perplexity付费版
💡
原文中文,约3800字,阅读约需9分钟。
📝
内容提要
开源的视觉搜索助手(VSA)模型已发布,使用两张RTX3090即可复现。VSA结合视觉语言模型,实时更新知识,提升图像处理能力,超越Perplexity付费版,适用于多模态研究,在开放集问答中表现卓越。
🎯
关键要点
- 开源的视觉搜索助手(VSA)模型已发布,使用两张RTX3090即可复现。
- VSA结合视觉语言模型(VLM),实时更新知识,提升图像处理能力。
- VSA在开放集问答中表现卓越,超越Perplexity付费版。
- VSA能够处理未见过的图像和新概念,模拟人类搜索过程。
- 视觉内容描述模块提取图像中对象级的描述和对象之间的相关性。
- Web知识搜索的核心是名为“搜索链”的迭代算法,利用LLM生成相关子问题。
- 实验结果显示,VSA在开放集问答中表现优于Qwen2-VL-72B和InternVL2-76B。
- 在开放集问答评估中,VSA在真实性、相关性和支持性三个维度上均表现出色。
- VSA在闭集评估中也表现优异,整体性能为84.9%。
➡️