The New Stack ·

探索RTEB：评估嵌入模型的新基准

💡 原文英文，约1100词，阅读约需4分钟。

📝

内容提要

随着大型语言模型的发展，基准测试成为评估其性能的重要标准。MTEB是用于嵌入模型的通用基准，但存在过拟合问题。RTEB作为新基准，专注于真实检索任务，结合公共和私有数据集，提供更准确的评估，适用于多种行业和语言。

🎯

🔎

随着大型语言模型的普及，基准测试成为评估模型性能的关键工具。有效的基准测试能够帮助开发者识别模型的优缺点，从而进行针对性的改进。RTEB的推出，正是为了填补现有基准在真实检索任务中的不足，提供更具实用性的评估标准。

RTEB通过结合公共和私有数据集，显著降低了模型过拟合的风险。这种混合方法不仅提高了评估的准确性，还确保了模型在真实世界应用中的表现更具代表性。尤其是在金融、医疗等关键领域，RTEB的应用将为企业提供更可靠的决策依据。

RTEB采用归一化折扣累积增益（nDCG@10）作为评估指标，这一选择强调了检索结果的相关性和排名质量。相比于其他评估方法，nDCG更能反映用户的真实搜索体验，因此在选择嵌入模型时，关注这一指标尤为重要。

❓

RTEB是一个专注于真实检索任务的新基准，旨在准确评估嵌入模型的检索准确性。

RTEB通过结合公共和私有数据集来防止过拟合，确保模型不在评估数据上训练。

RTEB覆盖金融、医疗和代码等关键企业领域，并支持20多种语言。

RTEB使用归一化折扣累积增益（nDCG@10）来评估检索准确性，考虑相关性和排名质量。

RTEB的排行榜使用Borda计数法来确定最终排名，以提供更公平的比较。

RTEB专注于真实检索任务，而MTEB是通用基准，涵盖许多与检索无关的任务。

🏷️