小红花·文摘

中科大、中兴提出新后训练范式：小尺寸多模态模型，成功复现R1推理

机器之心 ·

本文介绍了一种通过多阶段训练扩大双编码器模型规模的方法，解决了双编码器在不同域上的推广问题。该方法在域外泛化和检索性能方面取得了显著提高，优于现有的检索模型。消融研究还发现该方法在数据效率方面非常高效。

回归基础：提升密集编码器领域外检索的简单方法

BriefGPT - AI 论文速递 ·

本文介绍了GTR模型，它是一种双编码器模型，通过多阶段训练并扩大模型规模，在保持瓶颈嵌入大小不变的情况下，成功挑战了双编码器无法推广到其他域的观念。GTR在域外泛化方面表现出显著的检索性能提高，并且在BEIR数据集上优于现有的稀疏和密集的检索模型。消融研究表明，GTR在数据效率方面非常高效，只需要MS Marco 10％的监督数据即可实现最佳的跨域检索性能。

双编码器在极端多标签分类中的效果

BriefGPT - AI 论文速递 ·