FACTS基础:评估大型语言模型事实性的全新基准
💡
原文英文,约200词,阅读约需1分钟。
📝
内容提要
本文介绍了一个包含860个公共示例和859个私有示例的数据集。公共数据集已发布用于评估LLM,而私有数据集则保密以防基准污染。FACTS示例涵盖多个领域,包含不同长度的文档,用户请求包括摘要、问答生成和重写任务,但不涉及创造性或复杂推理。
🎯
关键要点
- 数据集分为860个公共示例和859个私有示例。
- 公共数据集已发布用于评估大型语言模型(LLM)。
- 私有数据集保密以防止基准污染和排行榜作弊。
- FACTS排行榜分数是公共和私有数据集的平均表现。
- FACTS示例涵盖多个领域,包括金融、技术、零售、医学和法律。
- 示例文档长度多样,最长可达32,000个标记(约20,000个单词)。
- 用户请求包括摘要、问答生成和重写任务。
- 未包含需要创造性、数学或复杂推理的示例。
❓
延伸问答
FACTS数据集包含多少个公共和私有示例?
FACTS数据集包含860个公共示例和859个私有示例。
公共数据集的用途是什么?
公共数据集用于评估大型语言模型(LLM)。
为什么要保密私有数据集?
私有数据集保密是为了防止基准污染和排行榜作弊。
FACTS示例涵盖哪些领域?
FACTS示例涵盖金融、技术、零售、医学和法律等多个领域。
用户请求的类型有哪些?
用户请求包括摘要、问答生成和重写任务。
FACTS数据集中是否包含需要创造性推理的示例?
不,FACTS数据集中未包含需要创造性、数学或复杂推理的示例。
➡️