本研究提出了一种无损标记剪枝方法,以解决后交互神经信息检索模型(如ColBERT)在存储文档标记时的高内存需求。通过引入三种正则化损失和两种剪枝策略,确保在仅使用30%标记的情况下,模型性能得以保持。
本研究提出了一种新方法“纠正去除排序”,用于神经信息检索系统中的数据去除问题。通过引入替代文档,保持检索结果的排序完整性,并提出新的教师-学生框架CuRD,以改善遗忘和纠正效果,同时确保模型的保留和泛化能力。实验结果表明,CuRD在性能上优于七种先进基线方法。
该研究探讨了否定形式对神经信息检索的影响,发现跨编码器模型表现最佳,晚交互模型次之。大多数信息检索模型在存在否定形式时表现不佳,且机器与人之间仍有显著差距。研究还分析了用户对不同语义的认知,并提出了考虑语义差异的建议。
本文介绍了IndicXNLI数据集,分析了11种印度语言的跨语言转移技术,研究了预训练模型、语言和输入类型对模型表现的影响。同时,介绍了IndicIRSuite和Indic-ColBERT等资源,以提升印度语言的神经信息检索性能。通过机器翻译和多语言模型的研究,探讨了大型语言模型在印度语言翻译中的能力,推动了相关研究的发展。
该论文介绍了为11种印度语言引入神经信息检索资源的工作,包括使用机器翻译创建的数据集和不同的神经信息检索模型集合。实验证明,这些资源在多种印度语言上的性能有显著改进。
完成下面两步后,将自动完成登录并继续当前操作。