PlugIR:开源还不用微调,首尔大学提出即插即用的多轮对话图文检索 | ACL 2024 - 晓飞的算法工程笔记
原文中文,约6300字,阅读约需15分钟。发表于: 。即插即用的PlugIR通过LLM提问者和用户之间的对话逐步改进文本查询以进行图像检索,然后利用LLM将对话转换为检索模型更易理解的格式(一句话)。首先,通过重新构造对话形式上下文消除了在现有视觉对话数据上微调检索模型的必要性,从而使任意黑盒模型都可以使用。其次,构建了LLM问答者根据当前情境中检索候
该文章介绍了一种基于大型语言模型的交互式文本到图像检索方法,通过重构对话上下文和上下文感知对话生成来提高检索效率和性能。作者还引入了一种新的评估指标BRI,用于全面评估交互式检索系统的性能。实验结果表明,该方法在多个数据集上表现出显著优势,并具有灵活的适应性。