小红花·文摘

本研究提出了一种无损标记剪枝方法，以解决后交互神经信息检索模型（如ColBERT）在存储文档标记时的高内存需求。通过引入三种正则化损失和两种剪枝策略，确保在仅使用30%标记的情况下，模型性能得以保持。

Towards Lossless Token Pruning in Late-Interaction Retrieval Models

BriefGPT - AI 论文速递 ·

本研究提出了一种新方法“纠正去除排序”，用于神经信息检索系统中的数据去除问题。通过引入替代文档，保持检索结果的排序完整性，并提出新的教师-学生框架CuRD，以改善遗忘和纠正效果，同时确保模型的保留和泛化能力。实验结果表明，CuRD在性能上优于七种先进基线方法。

神经纠正机器排序去除

BriefGPT - AI 论文速递 ·

该研究探讨了否定形式对神经信息检索的影响，发现跨编码器模型表现最佳，晚交互模型次之。大多数信息检索模型在存在否定形式时表现不佳，且机器与人之间仍有显著差距。研究还分析了用户对不同语义的认知，并提出了考虑语义差异的建议。

排列质量函数的否定

BriefGPT - AI 论文速递 ·

本文介绍了IndicXNLI数据集，分析了11种印度语言的跨语言转移技术，研究了预训练模型、语言和输入类型对模型表现的影响。同时，介绍了IndicIRSuite和Indic-ColBERT等资源，以提升印度语言的神经信息检索性能。通过机器翻译和多语言模型的研究，探讨了大型语言模型在印度语言翻译中的能力，推动了相关研究的发展。

IndicLLMSuite：针对印度语言创建预训练和微调数据集的蓝图

BriefGPT - AI 论文速递 ·

该论文介绍了为11种印度语言引入神经信息检索资源的工作，包括使用机器翻译创建的数据集和不同的神经信息检索模型集合。实验证明，这些资源在多种印度语言上的性能有显著改进。

Paramanu: 一系列新型高效的印度生成基础语言模型

BriefGPT - AI 论文速递 ·