小红花·文摘

发布FACTS基准套件以评估大型语言模型的事实准确性

InfoQ ·

大型语言模型（LLMs）在信息传递中日益重要，回答的准确性至关重要。为此，我们推出了FACTS基准套件，包含多个模型的事实准确性测试，包括参数基准、搜索基准和多模态基准。Kaggle将管理该套件，并提供3513个示例供公开使用。

FACTS基准套件：系统评估大型语言模型的事实准确性

Google DeepMind Blog ·

本研究提出了新基准MontageLie，揭示了现有信息对齐评估方法的不足。通过拼接真实陈述构建误导性叙事，暴露了评估框架的脆弱性。同时，提出了DoveScore框架，联合验证事实准确性和事件顺序一致性，以提升长格式文本对齐评估的鲁棒性。

Long-Form Information Alignment Evaluation Beyond Atomic Facts

BriefGPT - AI 论文速递 ·

本研究提出了一种N元子图推理框架，旨在解决知识图谱中N元关系事实的链接预测能力不足问题。通过引入N元语义超图结构及子图聚合网络NS-HART，该框架有效捕捉复杂N元模式，并在多项基准测试中展现出优越的推理能力。

Inductive Link Prediction on N-ary Relational Facts via Semantic Hypergraph Reasoning

BriefGPT - AI 论文速递 ·

本研究提出了一种新方法，利用大型视觉语言模型和自然语言推理来量化图像真实性，识别常识违反的图像，并在WHOOPS!数据集上实现了零-shot模式的新最优表现。

Leveraging Illusions: Estimating Image Realism through Atomic Facts

BriefGPT - AI 论文速递 ·

Google DeepMind和Google Research推出了FACTS Grounding基准，用于评估大型语言模型（LLMs）的事实准确性。根据该基准的表现，Gemini 2.0 Flash以83.6%的得分排名第一，Gemini 1.5 Flash、Claude 3.5 Sonnet和GPT-4o等模型也表现优异。选择合适的模型时需考虑用户的具体需求。