LLaVA-Plus是一个通用的多模态助手,扩展了大型多模态模型的功能。它通过激活相关工具和维护预训练的视觉和视觉语言模型的技能存储库来实现实际任务。实证结果表明,LLaVA-Plus在现有功能上优于LLaVA,并展示出新的功能。它在图像查询和人工智能与人类交互过程中具有独特之处,提高了工具使用性能并实现了新的场景。
使用clip-retrieval库从本地数据集中检索图像。创建ClipClient对象并指定URL和索引名称。通过文本和图像查询图像,并打印结果的长度。保存结果中的图像到指定路径。包含错误处理和超时设置。
完成下面两步后,将自动完成登录并继续当前操作。