小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

OpenAI 发布了 GPT-5.5 Instant 模型,显著提升了事实准确性,虚假陈述减少 52.5%。该模型在图像分析和 STEM 领域表现优异,成为所有 ChatGPT 用户的默认模型。新功能包括个性化回复和记忆源,用户可查看和编辑聊天记录。

GPT-5.5 Instant现已发布 减少啰嗦和车轱辘话 为用户提供简洁准确的答复

蓝点网
蓝点网 · 2026-05-06T04:06:10Z
刚刚,ChatGPT免费模型升级了:幻觉砍半/记忆更强/回答更简洁

OpenAI推出了GPT-5.5 Instant模型,显著提高了医疗、法律和金融领域的事实准确性,减少了错误陈述,并优化了回答的简洁性和实用性。新功能“记忆来源”允许用户管理上下文信息。该模型于5月5日上线,替代了旧版模型。

刚刚,ChatGPT免费模型升级了:幻觉砍半/记忆更强/回答更简洁

量子位
量子位 · 2026-05-06T00:22:35Z
减少灌输以容纳更多:训练数据修剪提升事实记忆能力

本文探讨了大语言模型(LLMs)在记忆事实知识方面的挑战,并提出通过训练数据修剪来提高事实准确性。研究表明,当训练数据中的信息量超过模型容量时,事实准确性会下降。作者提出了一种基于训练损失的数据选择方案,能够有效提升模型的事实记忆能力,甚至使小模型的表现接近大模型。

减少灌输以容纳更多:训练数据修剪提升事实记忆能力

Apple Machine Learning Research
Apple Machine Learning Research · 2026-04-13T00:00:00Z

本研究实证分析了大型语言模型在多对多摘要中的表现,整理了八个领域的数据集,测试了18种LLMs,结果显示经过指令调优的开源LLMs在M2MS能力上优于零-shot LLMs,但事实准确性仍需提升。

大型语言模型的多对多摘要实证研究

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-19T00:00:00Z

本研究提出了一个框架,旨在提升大型语言模型在知识密集型任务中的表现。通过结合检索增强生成和自适应注意力评分技术,显著提高了检索内容的利用率和相关性,改善了事实准确性和响应质量。该框架在内存瓶颈、领域特定推理能力及效率与可扩展性方面表现优异。

通过KV缓存和解码,采用策略优化的动态检索增强生成来扩展测试时推理

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-02T00:00:00Z

本研究提出ReaRAG模型,旨在提高大规模推理模型的事实准确性。该模型通过构建新数据框架和限制推理链长度,有效整合推理与检索功能,显著提升多跳问答任务的表现。

ReaRAG: Knowledge-Guided Reasoning Enhances the Factuality of Large Reasoning Models with Iterative Retrieval-Augmented Generation

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-27T00:00:00Z

本研究提出了第一个中文视觉问答基准——ChineseSimpleVQA,旨在评估大规模视觉语言模型(LVLM)在事实准确性方面的表现。该基准涵盖8个主要主题和56个子主题,采用多跳问题和高质量数据,以分析LVLM的能力和执行机制。

“看世界,发现知识”:大规模视觉语言模型的中文事实评估

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-17T00:00:00Z

Google DeepMind和Google Research推出了FACTS Grounding基准,用于评估大型语言模型(LLMs)的事实准确性。根据该基准的表现,Gemini 2.0 Flash以83.6%的得分排名第一,Gemini 1.5 Flash、Claude 3.5 Sonnet和GPT-4o等模型也表现优异。选择合适的模型时需考虑用户的具体需求。

根据FACTS排行榜推荐的五大大型语言模型

KDnuggets
KDnuggets · 2025-01-31T13:00:14Z

本研究推出了FACTS Grounding,一个在线领导者榜单,旨在评估语言模型在长文本输入下生成的响应的事实准确性。该方法通过依赖提供的文档,有效评判模型的响应准确性及满足用户请求的能力。

FACTS Grounding Leaderboard: Evaluating the Response Accuracy of Large Language Models to Long-Form Input

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-06T00:00:00Z

FACTS Grounding是一个评估大型语言模型(LLMs)事实准确性的新基准,旨在减少模型的“幻觉”现象。该基准通过1,719个示例测试LLMs的响应能力,确保回答准确且详细。同时,我们在Kaggle上推出了FACTS排行榜,以跟踪行业进展。该基准将不断演进,推动AI系统的改进。

FACTS Grounding:评估大型语言模型事实准确性的新基准

Google DeepMind Blog
Google DeepMind Blog · 2024-12-17T15:29:00Z

该研究探讨了视觉问题回答(VQA)领域的复杂性,提出了新的评估方法和数据集,以解决大型视觉-语言模型在物体虚构和事实准确性方面的问题。研究表明,现有模型在低层次视觉感知上表现不佳,尤其在处理图像对时,强调了未来改进的必要性。

幻觉VQA:基准测试与增强多模态模型在视觉幻觉上的表现

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-11T00:00:00Z
NeurIPS 2024|杜克大学&谷歌提出SLED解码框架,无需外部数据与额外训练,有效缓解大语言模型幻觉,提高事实准确性

杜克大学与Google Research的研究提出了一种自驱动Logits进化解码(SLED)方法,旨在提高大语言模型(LLM)的事实准确性。SLED通过挖掘模型的潜在知识,优化输出,减少错误,兼容多种解码方式,计算开销小且生成质量高。未来可结合监督式微调,应用于医疗和教育等领域。

NeurIPS 2024|杜克大学&谷歌提出SLED解码框架,无需外部数据与额外训练,有效缓解大语言模型幻觉,提高事实准确性

机器之心
机器之心 · 2024-12-02T05:15:00Z

本文探讨了大型语言模型中的幻觉现象,提出通过知识图谱作为附加模态来减少此类现象。研究表明,将输入文本转化为知识图谱嵌入并整合到语言模型中,可以显著提升模型的事实准确性和性能。

Using Knowledge Graph Embeddings as an Additional Modality to Address Hallucination Issues in Language Models

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-18T00:00:00Z

本研究提出了VERIFY管道,以解决语言模型在用户交互中的事实准确性问题,并创建了包含150个主题的FactBench数据集。研究发现,专有模型在事实性方面表现更佳,但在提示难度增加时,其表现有所下降。

FactBench: A Dynamic Benchmark for Evaluating the Factual Accuracy of Language Models in Real-World Environments

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-29T00:00:00Z

该研究探讨了大型语言模型(LLMs)在自然语言生成中的不确定性计量,提出了多种统计度量标准。研究发现,语义分散的平均值是评估响应质量的可靠指标,并强调了不确定性在模型评估中的重要性。通过新方法Luq和Luq-Ensemble,研究提高了LLMs响应的事实准确性,解决了数据不确定性下的错误响应问题。

大语言模型评估中的黑箱不确定性量化方法

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-15T00:00:00Z

这篇文章讨论了一种名为“Lamini”的人工智能记忆调整技术,它能够减少幻觉并提高事实准确性。该技术通过训练基于事实的模型,并使用检索增强生成技术选择最合适的模型。用户担心这种技术可能使AI变得更像搜索引擎而失去创造性,但幻觉在大语言模型中是创造力的体现,也是它们最有用的地方。幻觉可以为作者提供新的灵感,激发创造力。

“幻觉”反而是大语言模型最有用之处

极道
极道 · 2024-06-14T08:33:00Z

大语言模型(LLMs)在聊天中的应用已成为日常生活的一部分,但其回答常常是错误的,限制了其在实际场景中的适用性。近年来,对评估和改进LLM的事实准确性的研究引起了关注。本调查分析了现有工作,确定了主要挑战和原因,并提出了改进LLM的潜在解决方案。同时,还分析了开放式文本生成的自动事实准确性评估的障碍,并展望了未来研究的方向。

LLM 对以事实为导向的问题是否感到困惑?以 Reddit 为案例研究

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-04-01T00:00:00Z

大语言模型(LLMs)在聊天中的应用已成为日常生活的一部分,但其回答往往是错误的,限制了其在实际场景中的适用性。近年来,对评估和改进LLM的事实准确性的研究引起了关注。本调查分析了现有工作,确定了主要挑战和原因,并提出了改进LLM的潜在解决方案。同时,还分析了自动事实准确性评估在开放式文本生成中的障碍,并展望了未来研究的方向。

Multi - 向性知识评估:利用 FActScore 评估多语言 LLMs 的多区域知识

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-02-28T00:00:00Z

OpenAI官方博客更新了一篇文章,介绍了他们如何保障AI的安全性,重视儿童保护,不允许生成仇恨、骚扰、暴力或成人内容,尊重隐私,提高事实准确性,并承诺删除个人信息。他们认为解决AI安全问题的方法是研究缓解技术并测试滥用情况,同时提高安全性和AI能力。

ChatGPT安全引人忧,母公司发文称一贯注重安全性

FreeBuf网络安全行业门户
FreeBuf网络安全行业门户 · 2023-04-06T03:00:42Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码