💡
原文英文,约400词,阅读约需2分钟。
📝
内容提要
FACTS基准套件发布,旨在系统评估大型语言模型的事实准确性。该套件由FACTS团队与Kaggle合作开发,扩展了事实基础评估,新增参数、搜索和多模态三个基准,共包含3513个示例,评估模型在不同场景下的准确性。Gemini 3 Pro模型得分最高,但整体准确率未超过70%。该基准旨在支持研究,提供共享的事实可靠性参考。
🎯
关键要点
- 发布了FACTS基准套件,旨在系统评估大型语言模型的事实准确性。
- 该套件由FACTS团队与Kaggle合作开发,扩展了事实基础评估。
- 新增了参数、搜索和多模态三个基准,共包含3513个示例。
- Gemini 3 Pro模型得分最高,但整体准确率未超过70%。
- 基准旨在支持研究,提供共享的事实可靠性参考。
- 参数基准评估模型使用内部知识回答事实性问题的能力。
- 搜索基准评估模型使用标准化网络搜索工具检索和综合信息的能力。
- 多模态基准测试模型在回答关于图像的问题时的事实准确性。
- 更新的Grounding基准v2评估响应是否正确基于提供的上下文信息。
- 早期结果显示进展与挑战并存,Gemini 3 Pro的FACTS得分为68.8%。
- 没有模型的整体准确率超过70%,多模态事实性是一个特别困难的领域。
- FACTS团队表示,该基准旨在支持持续研究,而非作为模型质量的最终衡量标准。
➡️