本研究提出了一种无损标记剪枝方法,以解决后交互神经信息检索模型(如ColBERT)在存储文档标记时的高内存需求。通过引入三种正则化损失和两种剪枝策略,确保在仅使用30%标记的情况下,模型性能得以保持。
本研究提出了一种新方法“纠正去除排序”,用于神经信息检索系统中的数据去除问题。通过引入替代文档,保持检索结果的排序完整性,并提出新的教师-学生框架CuRD,以改善遗忘和纠正效果,同时确保模型的保留和泛化能力。实验结果表明,CuRD在性能上优于七种先进基线方法。
该论文介绍了为11种印度语言引入神经信息检索资源的工作,包括使用机器翻译创建的数据集和神经信息检索模型集合。实验证明,该资源在多种印度语言上取得了显著改进。
本文综述了神经信息检索(IR)模型的稳健性,包括对抗性攻击、超出分布场景和性能差异的稳健解决方案。提供了现有方法、数据集和评估指标的讨论,并介绍了一个用于稳健神经信息检索的评估基准(BestIR)。该研究为未来的IR模型稳健性研究提供线索,有助于开发可信赖的搜索引擎。
该论文介绍了为11种印度语言引入神经信息检索资源的工作,包括使用机器翻译创建的数据集和不同的神经信息检索模型集合。实验证明,这些资源在多种印度语言上的性能有显著改进。
完成下面两步后,将自动完成登录并继续当前操作。