Google DeepMind Blog ·

FACTS Grounding：评估大型语言模型事实准确性的新基准

💡 原文英文，约900词，阅读约需4分钟。

📝

内容提要

FACTS Grounding是一个评估大型语言模型（LLMs）事实准确性的新基准，旨在减少模型的“幻觉”现象。该基准通过1,719个示例测试LLMs的响应能力，确保回答准确且详细。同时，我们在Kaggle上推出了FACTS排行榜，以跟踪行业进展。该基准将不断演进，推动AI系统的改进。

🎯

❓

FACTS Grounding是一个评估大型语言模型（LLMs）事实准确性的新基准，旨在减少模型的幻觉现象。

通过1,719个示例测试LLMs的响应能力，确保回答准确且详细。

FACTS排行榜在Kaggle上推出，用于跟踪行业进展，并展示不同LLMs的准确性评分。

数据集包括860个公共示例和859个私有示例，涵盖多个领域的文档。

使用三种前沿LLM评判模型进行评估，以减少潜在的偏见。

FACTS Grounding将持续发展，以适应快速变化的技术进步，推动LLMs和AI系统的未来成功。

🏷️

OpenAI’s Daybreak and Anthropic’s Glasswing have nearly identical benchmarks — and 3 of the same partners
This week, OpenAI launched Daybreak, its cybersecurity initiative built aroun...
I tested OpenAI’s three claims about GPT-5.5 Instant, and only one fully held up
Last week, OpenAI replaced GPT-5.3 Instant as ChatGPT’s default model with GP...
8岁小学生idea直接变应用，秒哒3.0刚刚把AI应用门槛打没了
甚至可以直接在手机上做APP
挑战扩散自回归统治！字节提出视觉生成第三种路线，让模型像人类一样边画边改
相同参数量超越扩散自回归
Googlebook为何存在？
谷歌推出了新的Googlebook笔记本电脑平台，但评论者对其必要性表示怀疑。与Chromebook相比，Googlebook似乎没有解决实际问题，且操作...
Temporal的崩溃防护工作流引擎迎来3000名付费客户
Temporal是一家位于西雅图的软件公司，专注于保护IT系统，尤其是在处理大型AI工作负载时。其开源Durable Execution框架使代码具备容错...