ChatSearch:通用对话图像检索的数据集和生成检索模型
原文中文,约400字,阅读约需1分钟。发表于: 。本研究解决了开放领域图像的通用对话检索问题,填补了现有检索系统对多轮对话处理的空白。提出的ChatSearch数据集提供了多模态对话上下文查询,每个目标图像都需通过互动对话精准检索;新颖的生成检索模型ChatSearcher展示了在复杂上下文中推理的强大能力。这项工作有望激励更多关于互动多模态检索系统的研究。
本研究推出了PhotoChat数据集,专注于在线对话中的照片分享,包含12,000个对话。研究提出了照片分享意图预测和照片检索两个任务,基线模型表现良好,最佳图像检索模型的召回率为10.4%,意图预测的F1分数为58.1%。该数据集旨在推动相关研究的发展。