Google DeepMind Blog ·

FACTS基础：评估大型语言模型事实性的全新基准

Q: 用户请求的类型有哪些？

用户请求包括摘要、问答生成和重写任务。

💡 原文英文，约200词，阅读约需1分钟。

📝

内容提要

本文介绍了一个包含860个公共示例和859个私有示例的数据集。公共数据集已发布用于评估LLM，而私有数据集则保密以防基准污染。FACTS示例涵盖多个领域，包含不同长度的文档，用户请求包括摘要、问答生成和重写任务，但不涉及创造性或复杂推理。

🎯

关键要点

数据集分为860个公共示例和859个私有示例。
公共数据集已发布用于评估大型语言模型（LLM）。
私有数据集保密以防止基准污染和排行榜作弊。
FACTS排行榜分数是公共和私有数据集的平均表现。
FACTS示例涵盖多个领域，包括金融、技术、零售、医学和法律。
示例文档长度多样，最长可达32,000个标记（约20,000个单词）。
用户请求包括摘要、问答生成和重写任务。
未包含需要创造性、数学或复杂推理的示例。

🔎

延伸解读

数据集的多样性与应用

FACTS数据集涵盖多个领域，如金融、技术和医学，提供了丰富的评估基础。这种多样性使得研究人员能够在不同场景下测试大型语言模型（LLM）的表现，帮助识别模型在特定领域的优势与不足。

基准污染的防范措施

私有数据集的保密性是为了防止基准污染和排行榜作弊，这在评估模型时至关重要。研究人员在使用公共数据集时，应注意确保评估的公正性，以便获得真实的模型性能反馈。

任务类型的限制

FACTS示例不包括需要创造性或复杂推理的任务，这意味着评估结果可能无法全面反映模型的综合能力。用户在解读评估结果时，应考虑这一限制，以免对模型的实际应用能力产生误解。

❓

延伸问答

FACTS数据集包含多少个公共和私有示例？

FACTS数据集包含860个公共示例和859个私有示例。

公共数据集的用途是什么？

公共数据集用于评估大型语言模型（LLM）。

为什么要保密私有数据集？

私有数据集保密是为了防止基准污染和排行榜作弊。

FACTS示例涵盖哪些领域？

FACTS示例涵盖金融、技术、零售、医学和法律等多个领域。

用户请求的类型有哪些？