小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
一分钟读论文:《MASS-RAG:多智能体协同的检索增强生成》

论文《MASS-RAG: Multi-Agent Synthesis Retrieval-Augmented Generation》提出了一种多智能体协同处理检索证据的方法,旨在提高在噪声和异构上下文下的答案准确性。该方法将证据处理分为四个阶段,由不同智能体完成,显著降低了幻觉率并增强了鲁棒性,适用于多种场景。

一分钟读论文:《MASS-RAG:多智能体协同的检索增强生成》

Micropaper
Micropaper · 2026-04-22T00:00:00Z
DoorDash构建LLM对话模拟器,以大规模测试客服聊天机器人

DoorDash开发了一种模拟评估系统,能够快速进行数百次客服聊天机器人测试,显著提高实验效率。该系统将幻觉率降低了约90%,通过生成真实客户互动的多轮对话,结合自动评估框架,确保聊天机器人在实际场景中的表现。工程师通过持续迭代优化提示和上下文处理,以达到上线前的评估标准。

DoorDash构建LLM对话模拟器,以大规模测试客服聊天机器人

InfoQ
InfoQ · 2026-03-13T14:12:00Z

百川M3 Plus医疗AI模型通过“证据锚定”技术将幻觉率降低至2.6%,刷新全球纪录,旨在提升医疗AI的可信度,辅助医生做出科学决策,并通过“海纳百川计划”免费开放API以促进技术普及。

把医疗AI禁锢在严肃区间:百川M3 Plus首创“证据锚定”,幻觉率2.6%刷新全球纪录

量子位
量子位 · 2026-01-23T12:25:26Z
OpenAI终于发布大杀器,马斯克各种不服

OpenAI发布了GPT-5,称其在文本、编程和数学等领域表现优异,但尚未达到AGI水平。发布会上出现的变形PPT引发网友调侃。GPT-5降低了“幻觉率”,并引入“按需软件”概念,用户可通过自然语言生成应用。OpenAI强调与微软的合作,GPT-5将集成到微软产品中。公司估值达到5000亿美元,面临Meta的挖角压力,奥特曼宣布发放奖金留住员工。

OpenAI终于发布大杀器,马斯克各种不服

TechWeb 全站精华
TechWeb 全站精华 · 2025-08-08T03:35:01Z
DeepSeek-R1 0528 更新的洞察

DeepSeek-R1-0528的性能接近Gemini Pro和Claude 4,推理能力显著提升,复杂问题的平均推理深度从12K增至23K,准确率和通过率大幅提高,幻觉率降低,工具使用准确性和API响应可靠性改善,编码体验优化明显。

DeepSeek-R1 0528 更新的洞察

DEV Community
DEV Community · 2025-05-29T14:41:28Z

OpenAI的新模型o3和o4-mini的幻觉率显著上升,o3的幻觉率是o1的两倍,o4-mini则是三倍。用户反馈模型常常捏造代码和信息,并在质疑时推卸责任。OpenAI承认需要进一步研究原因,推测可能与训练过程中的奖励机制和上下文信息不足有关。

o3/o4-mini幻觉暴增2-3倍!OpenAI官方承认暂无法解释原因

量子位
量子位 · 2025-04-21T05:35:43Z

本研究分析了大型语言模型在多语言环境中的幻觉现象,发现高资源语言模型生成的回应更长且幻觉率较高,而小型模型的幻觉率更高。这对幻觉率的评估方法具有重要影响。

大型语言模型在多语言中产生幻觉的程度有多大?关于多语言幻觉的实地估计

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-18T00:00:00Z

本研究探讨了如何通过自由文本提示引发语言模型的特定行为,提出了一种新方法,将目标行为映射到多样化输出提示,实现了100%的攻击成功率和85%的幻觉率。

Triggering Language Model Behavior through Investigator Agents

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-03T00:00:00Z

本研究评估了ChatGPT和Gemini Advanced在金融文献参考中的可靠性,结果显示ChatGPT-4o的幻觉率为20.0%,而Gemini Advanced为76.7%。强调了验证聊天机器人提供的参考文献的重要性。

评估聊天机器人在金融文献中的准确性

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-11T00:00:00Z

本文提出了多种针对大型语言模型(LLM)幻觉检测的方法,包括基于马尔可夫链的验证框架和自动生成幻觉数据集的技术。研究表明,现有模型在幻觉识别上面临显著挑战,提出的基准测试(如HalluQA和DiaHalu)旨在评估和改善模型的准确性。实验结果显示,许多模型的幻觉率超过50%,亟需进一步优化。

小型代理也能出色!强化小型语言模型作为幻觉检测器

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-17T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码