本研究提出了一种新方法,结合大型语言模型(LLM)和领域专家的输入,生成特定领域的基于文档查询(QBD)数据集。这种方法显著降低了人力成本,并提升了QBD搜索性能和检索模型的优化效果。
本研究提出了一种受 $ ext{l}_0$ 启发的稀疏化方法,旨在提高稀疏检索模型在无推理场景下的效率。评估结果表明,该方法在 BEIR 基准测试中表现优异,与主流模型相当,揭示了检索效果与计算效率之间的权衡,具有实际应用价值。
本研究探讨了利用大语言模型(LLMs)生成标注,以降低检索模型训练和评估中的人工成本。结果表明,基于LLMs的标注在跨任务迁移中表现优越,尤其在非领域设置下,其性能超过传统人类标注模型,展现出更好的通用性。
本研究提出了MomentSeeker基准,旨在解决长视频理解中的时刻检索问题,涵盖超过500秒的视频,评估多种检索模型的表现,揭示现有方法的局限性,并通过多模态大语言模型取得显著成果。
本研究介绍了首个德国语方言检索数据集WikiDIR,指出传统词汇方法在高词汇变异情况下的不足,强调开发节省资源的方言特定检索模型的必要性,并证明文档翻译可以缩小方言差距。
本研究提出了一种结合三种检索模型和重新排序器的系统,以解决RIRAG-2025任务中的监管问题。通过提取重要句子并优化答案,生成了更具可读性和连贯性的回答。
近年来,长期记忆对话代理的兴趣增加,使用RAG语言模型快速发展。研究人员生成了一个新的数据集,并开发了一种新的检索模型,证明其在解决基于时间/事件的查询和模糊查询任务上比标准方法更有效。这个新数据集和更先进的RAG代理可以成为记忆增强对话代理的关键基准和垫脚石。
Jina ColBERT v2是一种先进的检索模型,相比以前的版本,它提高了性能。它支持89种语言的多语言能力,并允许用户控制输出嵌入大小。该模型紧凑且优于基于BM25的检索。它还提供了Matryoshka表示学习,允许不同的输出向量大小。Jina ColBERT v2可以通过各种API访问,并集成到不同的框架中。它在精确性和效率之间提供了平衡,可能降低存储和计算成本。
构建检索增强生成(RAG)解决方案是热门话题,将大语言模型(LLM)与检索模型结合应用于专有知识数据库。ColPali是一种新颖的方法,将PDF页面截图转化为向量表示,无需复杂的预处理步骤。ColPali在视觉文档检索基准测试中表现出色,超过其他检索模型。与Vespa结合,可以构建强大的RAG管道,仅使用文档页面的视觉表示。
介绍了一个大规模的众包文字冒险游戏作为研究平台,用于研究基于场景的对话。代理可以感知、表情和行动,并与其他代理进行对话。通过训练生成模型和检索模型,模型能够使用潜在世界的状态来调整预测,更好地预测代理行为和对话。分析了成功落地所需的要素和与代理相关的因素。
介绍了一个大规模的众包文字冒险游戏作为研究平台,用于研究基于场景的对话。通过训练生成模型和检索模型,模型能够根据潜在世界的状态来调整预测,从而更好地预测代理行为和对话。分析了成功落地所需的要素和与代理相关的因素。
该研究结合了大型语言模型的检索模型和嵌入式检索模型,解决了零样本检索问题。通过生成增强检索和检索增强生成两种范式,并使用新颖的循环公式,在零样本环境中改进检索和重写阶段,提高了系统召回率和精准度。
本文介绍了一个大规模的法律案例检索数据集LeCaRDv2,解决了现有数据集中的三个问题,并提出了一个有效识别潜在候选项的候选集合策略。在该数据集上评估了多个检索模型,结果表明法律案例检索仍有很大的改进空间。
该文介绍了一种名为 Neural PG-RANK 的新型训练算法,通过实例化一个语言模型为 Plackett-Luce 排序策略,为检索模型的端到端训练提供了一种合理的方法,并有效地将训练目标与下游决策质量相统一。
完成下面两步后,将自动完成登录并继续当前操作。