本研究提出了一种基于检索的框架,以解决大型语言模型生成幻觉输出的问题。通过将用户查询转化为逻辑表示,并利用检索增强生成(RAG)评估前提有效性,显著提高了输出的事实一致性和准确性。实验结果表明,该方法有效减少了幻觉现象。
本研究提出了多轮多模态澄清问题(MMCQ)任务,旨在改善传统文本澄清方法的不足。通过构建包含13,000个多轮互动的数据集ClariMM,并引入结合文本与视觉信息的检索框架Mario,实验证明该方法在多轮澄清中提高了12.88%的MRR,尤其在长对话中效果显著。
本文探讨了图像-文本检索(ITR)的评估管道及其脆弱性,并提出改进方案。研究提出了一种高效的文本到视频检索方法,结合多粒度视觉特征学习和二阶段检索架构,性能与现有方法相当且速度快50倍。此外,提供了细粒度图像检索模型设计指南和新颖的检索框架,显著提升了检索准确性和效率。
本文提出了一个统一框架,研究多模态大型语言模型(MLLMs)在文本到图像生成与检索中的应用。通过构建基准测试集TIGeR-Bench,验证了新方法的优越性,并探讨了自回归与非自回归模型的效果。提出的基于Token-Guided Dual Transformer的检索框架结合全局与本地特征,实现了高效的跨模态检索。
完成下面两步后,将自动完成登录并继续当前操作。