FACTS基础:评估大型语言模型事实性的全新基准

💡 原文英文,约200词,阅读约需1分钟。
📝

内容提要

本文介绍了一个包含860个公共示例和859个私有示例的数据集。公共数据集已发布用于评估LLM,而私有数据集则保密以防基准污染。FACTS示例涵盖多个领域,包含不同长度的文档,用户请求包括摘要、问答生成和重写任务,但不涉及创造性或复杂推理。

🎯

关键要点

  • 数据集分为860个公共示例和859个私有示例。
  • 公共数据集已发布用于评估大型语言模型(LLM)。
  • 私有数据集保密以防止基准污染和排行榜作弊。
  • FACTS排行榜分数是公共和私有数据集的平均表现。
  • FACTS示例涵盖多个领域,包括金融、技术、零售、医学和法律。
  • 示例文档长度多样,最长可达32,000个标记(约20,000个单词)。
  • 用户请求包括摘要、问答生成和重写任务。
  • 未包含需要创造性、数学或复杂推理的示例。

延伸问答

FACTS数据集包含多少个公共和私有示例?

FACTS数据集包含860个公共示例和859个私有示例。

公共数据集的用途是什么?

公共数据集用于评估大型语言模型(LLM)。

为什么要保密私有数据集?

私有数据集保密是为了防止基准污染和排行榜作弊。

FACTS示例涵盖哪些领域?

FACTS示例涵盖金融、技术、零售、医学和法律等多个领域。

用户请求的类型有哪些?

用户请求包括摘要、问答生成和重写任务。

FACTS数据集中是否包含需要创造性推理的示例?

不,FACTS数据集中未包含需要创造性、数学或复杂推理的示例。

➡️

继续阅读