本研究提出了一种新方法,结合大型语言模型(LLM)和领域专家的输入,生成特定领域的基于文档查询(QBD)数据集。这种方法显著降低了人力成本,并提升了QBD搜索性能和检索模型的优化效果。
本研究提出了一种受 $ ext{l}_0$ 启发的稀疏化方法,旨在提高稀疏检索模型在无推理场景下的效率。评估结果表明,该方法在 BEIR 基准测试中表现优异,与主流模型相当,揭示了检索效果与计算效率之间的权衡,具有实际应用价值。
本研究探讨了利用大语言模型(LLMs)生成标注,以降低检索模型训练和评估中的人工成本。结果表明,基于LLMs的标注在跨任务迁移中表现优越,尤其在非领域设置下,其性能超过传统人类标注模型,展现出更好的通用性。
本研究提出了一种结合三种检索模型和重新排序器的系统,以解决RIRAG-2025任务中的监管问题。通过提取重要句子并优化答案,生成了更具可读性和连贯性的回答。
本文探讨了信息检索系统与语言模型的结合,评估了多种检索模型和方法,包括跨语言检索、稀疏检索和排名模型的改进。研究表明,新模型和算法显著提升了检索的准确性和效率,满足了高效问答系统的需求。
Jina ColBERT v2是一种先进的检索模型,相比以前的版本,它提高了性能。它支持89种语言的多语言能力,并允许用户控制输出嵌入大小。该模型紧凑且优于基于BM25的检索。它还提供了Matryoshka表示学习,允许不同的输出向量大小。Jina ColBERT v2可以通过各种API访问,并集成到不同的框架中。它在精确性和效率之间提供了平衡,可能降低存储和计算成本。
本文探讨了基于嵌入的检索模型及其在段落级预训练任务中的重要性。研究表明,检索增强语言模型(RALMs)在问答任务中表现优越,通过改进检索器与模型组件的交互,可以提高性能。提出的可训练综合检索器框架(EoR)有效减少了不一致性,显著提升了开放域问答的效果。
本文介绍了一种无需注释的可扩展伪查询文档训练方法,结合查询提取和生成,提升检索表现。研究开发了新型数据增强框架,利用多个预训练语言模型,显著提高了PrivacyQA基准测试的F1分数。同时,提出了基于大型语言模型的文档级嵌入框架,改进了检索模型的训练过程,并在多个数据集上取得了最新成果。
构建检索增强生成(RAG)解决方案是热门话题,将大语言模型(LLM)与检索模型结合应用于专有知识数据库。ColPali是一种新颖的方法,将PDF页面截图转化为向量表示,无需复杂的预处理步骤。ColPali在视觉文档检索基准测试中表现出色,超过其他检索模型。与Vespa结合,可以构建强大的RAG管道,仅使用文档页面的视觉表示。
本文探讨了如何通过大型语言模型提升多模态双编码检索系统在多语言和跨语言任务中的性能。研究表明,改进语义表示和检索模型能够有效提高语音与文本的匹配率,增强跨语言检索能力。
介绍了一个大规模的众包文字冒险游戏作为研究平台,用于研究基于场景的对话。通过训练生成模型和检索模型,模型能够根据潜在世界的状态来调整预测,从而更好地预测代理行为和对话。分析了成功落地所需的要素和与代理相关的因素。
该研究结合了大型语言模型的检索模型和嵌入式检索模型,解决了零样本检索问题。通过生成增强检索和检索增强生成两种范式,并使用新颖的循环公式,在零样本环境中改进检索和重写阶段,提高了系统召回率和精准度。
本文介绍了一个大规模的法律案例检索数据集LeCaRDv2,解决了现有数据集中的三个问题,并提出了一个有效识别潜在候选项的候选集合策略。在该数据集上评估了多个检索模型,结果表明法律案例检索仍有很大的改进空间。
该文介绍了一种名为 Neural PG-RANK 的新型训练算法,通过实例化一个语言模型为 Plackett-Luce 排序策略,为检索模型的端到端训练提供了一种合理的方法,并有效地将训练目标与下游决策质量相统一。
完成下面两步后,将自动完成登录并继续当前操作。