OpenAI 发布了 GPT-5.5 Instant 模型,显著提升了事实准确性,虚假陈述减少 52.5%。该模型在图像分析和 STEM 领域表现优异,成为所有 ChatGPT 用户的默认模型。新功能包括个性化回复和记忆源,用户可查看和编辑聊天记录。
OpenAI推出了GPT-5.5 Instant模型,显著提高了医疗、法律和金融领域的事实准确性,减少了错误陈述,并优化了回答的简洁性和实用性。新功能“记忆来源”允许用户管理上下文信息。该模型于5月5日上线,替代了旧版模型。
本文探讨了大语言模型(LLMs)在记忆事实知识方面的挑战,并提出通过训练数据修剪来提高事实准确性。研究表明,当训练数据中的信息量超过模型容量时,事实准确性会下降。作者提出了一种基于训练损失的数据选择方案,能够有效提升模型的事实记忆能力,甚至使小模型的表现接近大模型。
本研究实证分析了大型语言模型在多对多摘要中的表现,整理了八个领域的数据集,测试了18种LLMs,结果显示经过指令调优的开源LLMs在M2MS能力上优于零-shot LLMs,但事实准确性仍需提升。
本研究提出了一个框架,旨在提升大型语言模型在知识密集型任务中的表现。通过结合检索增强生成和自适应注意力评分技术,显著提高了检索内容的利用率和相关性,改善了事实准确性和响应质量。该框架在内存瓶颈、领域特定推理能力及效率与可扩展性方面表现优异。
本研究提出ReaRAG模型,旨在提高大规模推理模型的事实准确性。该模型通过构建新数据框架和限制推理链长度,有效整合推理与检索功能,显著提升多跳问答任务的表现。
本研究提出了第一个中文视觉问答基准——ChineseSimpleVQA,旨在评估大规模视觉语言模型(LVLM)在事实准确性方面的表现。该基准涵盖8个主要主题和56个子主题,采用多跳问题和高质量数据,以分析LVLM的能力和执行机制。
Google DeepMind和Google Research推出了FACTS Grounding基准,用于评估大型语言模型(LLMs)的事实准确性。根据该基准的表现,Gemini 2.0 Flash以83.6%的得分排名第一,Gemini 1.5 Flash、Claude 3.5 Sonnet和GPT-4o等模型也表现优异。选择合适的模型时需考虑用户的具体需求。
本研究推出了FACTS Grounding,一个在线领导者榜单,旨在评估语言模型在长文本输入下生成的响应的事实准确性。该方法通过依赖提供的文档,有效评判模型的响应准确性及满足用户请求的能力。
FACTS Grounding是一个评估大型语言模型(LLMs)事实准确性的新基准,旨在减少模型的“幻觉”现象。该基准通过1,719个示例测试LLMs的响应能力,确保回答准确且详细。同时,我们在Kaggle上推出了FACTS排行榜,以跟踪行业进展。该基准将不断演进,推动AI系统的改进。
该研究探讨了视觉问题回答(VQA)领域的复杂性,提出了新的评估方法和数据集,以解决大型视觉-语言模型在物体虚构和事实准确性方面的问题。研究表明,现有模型在低层次视觉感知上表现不佳,尤其在处理图像对时,强调了未来改进的必要性。
杜克大学与Google Research的研究提出了一种自驱动Logits进化解码(SLED)方法,旨在提高大语言模型(LLM)的事实准确性。SLED通过挖掘模型的潜在知识,优化输出,减少错误,兼容多种解码方式,计算开销小且生成质量高。未来可结合监督式微调,应用于医疗和教育等领域。
本文探讨了大型语言模型中的幻觉现象,提出通过知识图谱作为附加模态来减少此类现象。研究表明,将输入文本转化为知识图谱嵌入并整合到语言模型中,可以显著提升模型的事实准确性和性能。
本研究提出了VERIFY管道,以解决语言模型在用户交互中的事实准确性问题,并创建了包含150个主题的FactBench数据集。研究发现,专有模型在事实性方面表现更佳,但在提示难度增加时,其表现有所下降。
该研究探讨了大型语言模型(LLMs)在自然语言生成中的不确定性计量,提出了多种统计度量标准。研究发现,语义分散的平均值是评估响应质量的可靠指标,并强调了不确定性在模型评估中的重要性。通过新方法Luq和Luq-Ensemble,研究提高了LLMs响应的事实准确性,解决了数据不确定性下的错误响应问题。
这篇文章讨论了一种名为“Lamini”的人工智能记忆调整技术,它能够减少幻觉并提高事实准确性。该技术通过训练基于事实的模型,并使用检索增强生成技术选择最合适的模型。用户担心这种技术可能使AI变得更像搜索引擎而失去创造性,但幻觉在大语言模型中是创造力的体现,也是它们最有用的地方。幻觉可以为作者提供新的灵感,激发创造力。
大语言模型(LLMs)在聊天中的应用已成为日常生活的一部分,但其回答常常是错误的,限制了其在实际场景中的适用性。近年来,对评估和改进LLM的事实准确性的研究引起了关注。本调查分析了现有工作,确定了主要挑战和原因,并提出了改进LLM的潜在解决方案。同时,还分析了开放式文本生成的自动事实准确性评估的障碍,并展望了未来研究的方向。
大语言模型(LLMs)在聊天中的应用已成为日常生活的一部分,但其回答往往是错误的,限制了其在实际场景中的适用性。近年来,对评估和改进LLM的事实准确性的研究引起了关注。本调查分析了现有工作,确定了主要挑战和原因,并提出了改进LLM的潜在解决方案。同时,还分析了自动事实准确性评估在开放式文本生成中的障碍,并展望了未来研究的方向。
OpenAI官方博客更新了一篇文章,介绍了他们如何保障AI的安全性,重视儿童保护,不允许生成仇恨、骚扰、暴力或成人内容,尊重隐私,提高事实准确性,并承诺删除个人信息。他们认为解决AI安全问题的方法是研究缓解技术并测试滥用情况,同时提高安全性和AI能力。
完成下面两步后,将自动完成登录并继续当前操作。