小红花·文摘

OpenAI 发布了 GPT-5.5 Instant 模型，显著提升了事实准确性，虚假陈述减少 52.5%。该模型在图像分析和 STEM 领域表现优异，成为所有 ChatGPT 用户的默认模型。新功能包括个性化回复和记忆源，用户可查看和编辑聊天记录。

GPT-5.5 Instant现已发布减少啰嗦和车轱辘话为用户提供简洁准确的答复

蓝点网 ·

刚刚，ChatGPT免费模型升级了：幻觉砍半/记忆更强/回答更简洁

量子位 ·

减少灌输以容纳更多：训练数据修剪提升事实记忆能力

Apple Machine Learning Research ·

本研究实证分析了大型语言模型在多对多摘要中的表现，整理了八个领域的数据集，测试了18种LLMs，结果显示经过指令调优的开源LLMs在M2MS能力上优于零-shot LLMs，但事实准确性仍需提升。

大型语言模型的多对多摘要实证研究

BriefGPT - AI 论文速递 ·

本研究提出了一个框架，旨在提升大型语言模型在知识密集型任务中的表现。通过结合检索增强生成和自适应注意力评分技术，显著提高了检索内容的利用率和相关性，改善了事实准确性和响应质量。该框架在内存瓶颈、领域特定推理能力及效率与可扩展性方面表现优异。

通过KV缓存和解码，采用策略优化的动态检索增强生成来扩展测试时推理

BriefGPT - AI 论文速递 ·

本研究提出ReaRAG模型，旨在提高大规模推理模型的事实准确性。该模型通过构建新数据框架和限制推理链长度，有效整合推理与检索功能，显著提升多跳问答任务的表现。

ReaRAG: Knowledge-Guided Reasoning Enhances the Factuality of Large Reasoning Models with Iterative Retrieval-Augmented Generation

BriefGPT - AI 论文速递 ·

本研究提出了第一个中文视觉问答基准——ChineseSimpleVQA，旨在评估大规模视觉语言模型（LVLM）在事实准确性方面的表现。该基准涵盖8个主要主题和56个子主题，采用多跳问题和高质量数据，以分析LVLM的能力和执行机制。

“看世界，发现知识”：大规模视觉语言模型的中文事实评估

BriefGPT - AI 论文速递 ·

Google DeepMind和Google Research推出了FACTS Grounding基准，用于评估大型语言模型（LLMs）的事实准确性。根据该基准的表现，Gemini 2.0 Flash以83.6%的得分排名第一，Gemini 1.5 Flash、Claude 3.5 Sonnet和GPT-4o等模型也表现优异。选择合适的模型时需考虑用户的具体需求。

根据FACTS排行榜推荐的五大大型语言模型

KDnuggets ·

本研究推出了FACTS Grounding，一个在线领导者榜单，旨在评估语言模型在长文本输入下生成的响应的事实准确性。该方法通过依赖提供的文档，有效评判模型的响应准确性及满足用户请求的能力。

FACTS Grounding Leaderboard: Evaluating the Response Accuracy of Large Language Models to Long-Form Input

BriefGPT - AI 论文速递 ·

FACTS Grounding是一个评估大型语言模型（LLMs）事实准确性的新基准，旨在减少模型的“幻觉”现象。该基准通过1,719个示例测试LLMs的响应能力，确保回答准确且详细。同时，我们在Kaggle上推出了FACTS排行榜，以跟踪行业进展。该基准将不断演进，推动AI系统的改进。

FACTS Grounding：评估大型语言模型事实准确性的新基准

Google DeepMind Blog ·

该研究探讨了视觉问题回答（VQA）领域的复杂性，提出了新的评估方法和数据集，以解决大型视觉-语言模型在物体虚构和事实准确性方面的问题。研究表明，现有模型在低层次视觉感知上表现不佳，尤其在处理图像对时，强调了未来改进的必要性。

幻觉VQA：基准测试与增强多模态模型在视觉幻觉上的表现

BriefGPT - AI 论文速递 ·

NeurIPS 2024｜杜克大学&谷歌提出SLED解码框架，无需外部数据与额外训练，有效缓解大语言模型幻觉，提高事实准确性

机器之心 ·

本文探讨了大型语言模型中的幻觉现象，提出通过知识图谱作为附加模态来减少此类现象。研究表明，将输入文本转化为知识图谱嵌入并整合到语言模型中，可以显著提升模型的事实准确性和性能。

Using Knowledge Graph Embeddings as an Additional Modality to Address Hallucination Issues in Language Models

BriefGPT - AI 论文速递 ·

本研究提出了VERIFY管道，以解决语言模型在用户交互中的事实准确性问题，并创建了包含150个主题的FactBench数据集。研究发现，专有模型在事实性方面表现更佳，但在提示难度增加时，其表现有所下降。

FactBench: A Dynamic Benchmark for Evaluating the Factual Accuracy of Language Models in Real-World Environments

BriefGPT - AI 论文速递 ·

该研究探讨了大型语言模型（LLMs）在自然语言生成中的不确定性计量，提出了多种统计度量标准。研究发现，语义分散的平均值是评估响应质量的可靠指标，并强调了不确定性在模型评估中的重要性。通过新方法Luq和Luq-Ensemble，研究提高了LLMs响应的事实准确性，解决了数据不确定性下的错误响应问题。

大语言模型评估中的黑箱不确定性量化方法

BriefGPT - AI 论文速递 ·

这篇文章讨论了一种名为“Lamini”的人工智能记忆调整技术，它能够减少幻觉并提高事实准确性。该技术通过训练基于事实的模型，并使用检索增强生成技术选择最合适的模型。用户担心这种技术可能使AI变得更像搜索引擎而失去创造性，但幻觉在大语言模型中是创造力的体现，也是它们最有用的地方。幻觉可以为作者提供新的灵感，激发创造力。

“幻觉”反而是大语言模型最有用之处

极道 ·

大语言模型（LLMs）在聊天中的应用已成为日常生活的一部分，但其回答常常是错误的，限制了其在实际场景中的适用性。近年来，对评估和改进LLM的事实准确性的研究引起了关注。本调查分析了现有工作，确定了主要挑战和原因，并提出了改进LLM的潜在解决方案。同时，还分析了开放式文本生成的自动事实准确性评估的障碍，并展望了未来研究的方向。

LLM 对以事实为导向的问题是否感到困惑？以 Reddit 为案例研究

BriefGPT - AI 论文速递 ·

大语言模型（LLMs）在聊天中的应用已成为日常生活的一部分，但其回答往往是错误的，限制了其在实际场景中的适用性。近年来，对评估和改进LLM的事实准确性的研究引起了关注。本调查分析了现有工作，确定了主要挑战和原因，并提出了改进LLM的潜在解决方案。同时，还分析了自动事实准确性评估在开放式文本生成中的障碍，并展望了未来研究的方向。

Multi - 向性知识评估：利用 FActScore 评估多语言 LLMs 的多区域知识

BriefGPT - AI 论文速递 ·

OpenAI官方博客更新了一篇文章，介绍了他们如何保障AI的安全性，重视儿童保护，不允许生成仇恨、骚扰、暴力或成人内容，尊重隐私，提高事实准确性，并承诺删除个人信息。他们认为解决AI安全问题的方法是研究缓解技术并测试滥用情况，同时提高安全性和AI能力。

ChatGPT安全引人忧，母公司发文称一贯注重安全性

FreeBuf网络安全行业门户 ·

GPT-5.5 Instant现已发布 减少啰嗦和车轱辘话 为用户提供简洁准确的答复

刚刚，ChatGPT免费模型升级了：幻觉砍半/记忆更强/回答更简洁

减少灌输以容纳更多：训练数据修剪提升事实记忆能力

大型语言模型的多对多摘要实证研究

通过KV缓存和解码，采用策略优化的动态检索增强生成来扩展测试时推理

ReaRAG: Knowledge-Guided Reasoning Enhances the Factuality of Large Reasoning Models with Iterative Retrieval-Augmented Generation

“看世界，发现知识”：大规模视觉语言模型的中文事实评估

根据FACTS排行榜推荐的五大大型语言模型

FACTS Grounding Leaderboard: Evaluating the Response Accuracy of Large Language Models to Long-Form Input

FACTS Grounding：评估大型语言模型事实准确性的新基准

幻觉VQA：基准测试与增强多模态模型在视觉幻觉上的表现

NeurIPS 2024｜杜克大学&谷歌提出SLED解码框架，无需外部数据与额外训练，有效缓解大语言模型幻觉，提高事实准确性

Using Knowledge Graph Embeddings as an Additional Modality to Address Hallucination Issues in Language Models

FactBench: A Dynamic Benchmark for Evaluating the Factual Accuracy of Language Models in Real-World Environments

大语言模型评估中的黑箱不确定性量化方法

“幻觉”反而是大语言模型最有用之处

LLM 对以事实为导向的问题是否感到困惑？以 Reddit 为案例研究

Multi - 向性知识评估：利用 FActScore 评估多语言 LLMs 的多区域知识

ChatGPT安全引人忧，母公司发文称一贯注重安全性

GPT-5.5 Instant现已发布减少啰嗦和车轱辘话为用户提供简洁准确的答复