小红花·文摘

本研究提出了一种基于检索的框架，以解决大型语言模型生成幻觉输出的问题。通过将用户查询转化为逻辑表示，并利用检索增强生成（RAG）评估前提有效性，显著提高了输出的事实一致性和准确性。实验结果表明，该方法有效减少了幻觉现象。

Don't Let It Hallucinate: Premise Verification via Retrieval-Augmented Logical Reasoning

BriefGPT - AI 论文速递 ·

本研究提出了多轮多模态澄清问题（MMCQ）任务，旨在改善传统文本澄清方法的不足。通过构建包含13,000个多轮互动的数据集ClariMM，并引入结合文本与视觉信息的检索框架Mario，实验证明该方法在多轮澄清中提高了12.88%的MRR，尤其在长对话中效果显著。

Multi-Turn Multi-Modal Question Clarification for Enhanced Conversational Understanding

BriefGPT - AI 论文速递 ·

本文探讨了图像-文本检索（ITR）的评估管道及其脆弱性，并提出改进方案。研究提出了一种高效的文本到视频检索方法，结合多粒度视觉特征学习和二阶段检索架构，性能与现有方法相当且速度快50倍。此外，提供了细粒度图像检索模型设计指南和新颖的检索框架，显著提升了检索准确性和效率。

FiCo-ITR：用于比较性能分析的细粒度和粗粒度图像 - 文本检索的桥接

BriefGPT - AI 论文速递 ·

本文提出了一个统一框架，研究多模态大型语言模型（MLLMs）在文本到图像生成与检索中的应用。通过构建基准测试集TIGeR-Bench，验证了新方法的优越性，并探讨了自回归与非自回归模型的效果。提出的基于Token-Guided Dual Transformer的检索框架结合全局与本地特征，实现了高效的跨模态检索。

将文本到图像检索革命化为自回归令牌到向量生成

BriefGPT - AI 论文速递 ·