小红花·文摘

Micropaper ·

InfoQ ·

百川M3 Plus医疗AI模型通过“证据锚定”技术将幻觉率降低至2.6%，刷新全球纪录，旨在提升医疗AI的可信度，辅助医生做出科学决策，并通过“海纳百川计划”免费开放API以促进技术普及。

量子位 ·

TechWeb 全站精华 ·

DEV Community ·

OpenAI的新模型o3和o4-mini的幻觉率显著上升，o3的幻觉率是o1的两倍，o4-mini则是三倍。用户反馈模型常常捏造代码和信息，并在质疑时推卸责任。OpenAI承认需要进一步研究原因，推测可能与训练过程中的奖励机制和上下文信息不足有关。

量子位 ·

本研究分析了大型语言模型在多语言环境中的幻觉现象，发现高资源语言模型生成的回应更长且幻觉率较高，而小型模型的幻觉率更高。这对幻觉率的评估方法具有重要影响。

BriefGPT - AI 论文速递 ·

本研究探讨了如何通过自由文本提示引发语言模型的特定行为，提出了一种新方法，将目标行为映射到多样化输出提示，实现了100%的攻击成功率和85%的幻觉率。

BriefGPT - AI 论文速递 ·

本研究评估了ChatGPT和Gemini Advanced在金融文献参考中的可靠性，结果显示ChatGPT-4o的幻觉率为20.0%，而Gemini Advanced为76.7%。强调了验证聊天机器人提供的参考文献的重要性。

BriefGPT - AI 论文速递 ·

本文提出了多种针对大型语言模型（LLM）幻觉检测的方法，包括基于马尔可夫链的验证框架和自动生成幻觉数据集的技术。研究表明，现有模型在幻觉识别上面临显著挑战，提出的基准测试（如HalluQA和DiaHalu）旨在评估和改善模型的准确性。实验结果显示，许多模型的幻觉率超过50%，亟需进一步优化。

BriefGPT - AI 论文速递 ·