小红花·文摘 - 小红花技术领袖俱乐部

本研究提出了一种基于无监督文档语料库的合成数据评估方法，旨在提高语言模型评估效率。研究结果表明，该方法生成的评估结果与人工编制问题高度一致，显示出提升语言模型性能评估的潜力。

Constructing Synthetic Data Evaluations for Language Models in Unsupervised Document Corpora

BriefGPT - AI 论文速递 ·

本研究提出了“幻影维基”，旨在解决大型语言模型在推理和检索评估中的数据泄漏问题，生成独特且一致的文档语料库，并提供可扩展的评估框架。

幻影维基：按需生成的推理与检索评估数据集

BriefGPT - AI 论文速递 ·