小红花·文摘 - 小红花技术领袖俱乐部

DoorDash如何构建评估大型语言模型的测试系统

DoorDash如何构建评估大型语言模型的测试系统

ByteByteGo Newsletter ·

减少大型语言模型中的幻觉问题可以通过七种策略实现：1. 使用检索增强生成（RAG）确保回答基于可靠数据；2. 关键声明需引用来源；3. 使用工具调用而非自由回答；4. 添加生成后验证步骤；5. 偏向引用而非改写；6. 校准不确定性并优雅失败；7. 持续评估和监控。这些方法有助于提高系统的可靠性和准确性。

减少生产环境中大型语言模型幻觉的七种方法

KDnuggets ·

LangGraph 通过有向图模型解决 LLM 的幻觉问题，支持循环、状态管理和人机协作，适用于金融等高风险领域，确保输出的确定性和自动回退功能。

LangGraph 是如何让LLM产生确定性输出的？

luozhiyun`s Blog 我的技术分享 ·

从AGI炒作到工程现实：大型语言模型的未来

从AGI炒作到工程现实：大型语言模型的未来

The New Stack ·

OpenAI推出o3-pro模型，专注于可靠性，用户反馈褒贬不一

OpenAI推出o3-pro模型，专注于可靠性，用户反馈褒贬不一

InfoQ ·

构建基于行动的系统以减轻AI代理的幻觉问题

构建基于行动的系统以减轻AI代理的幻觉问题

DEV Community ·

防止AI幻觉的特殊秘诀：一个实用的Google Genkit-AI示例！

防止AI幻觉的特殊秘诀：一个实用的Google Genkit-AI示例！

DEV Community ·

本文研究了大型语言模型在摘要任务中的幻觉问题，提出了新方法FaithJudge，通过少量人类注释提升幻觉评估的自动化效果，并建立了改进的幻觉排行榜。

Evaluating the Credibility of LLMs in RAG Using Evolving Leaderboards

BriefGPT - AI 论文速递 ·

本研究探讨了大型语言模型（LLMs）在代码生成中产生的幻觉问题，分析了幻觉的类型，评估了现有的基准测试和缓解策略，指出了当前面临的挑战，并提出了未来的研究方向建议。

Hallucinations Induced by Code Generation Large Language Models: Taxonomy, Benchmarks, Mitigation, and Challenges

BriefGPT - AI 论文速递 ·

本研究揭示了对比解码策略在多模态大语言模型中解决幻觉问题的局限性，尽管表面上性能有所提升，但这些提升实际上是误导性因素所致，未能有效抑制幻觉。研究挑战了对比解码的有效性，并为更好的解决方案提供了新方向。

The Mirage of Performance Gains: Why Contrastive Decoding Fails to Address Multimodal Hallucination Issues

BriefGPT - AI 论文速递 ·

减少大型视觉语言模型中的幻觉：潜在空间引导方法

减少大型视觉语言模型中的幻觉：潜在空间引导方法

实时互动网 ·

在大型语言模型应用中，传统的检索增强生成方法存在幻觉问题。为此，提出了推理检索增强生成技术，通过先让模型理解文档，再进行精确检索，以提高回答质量，减少错误。

MVP 聚技站｜推理检索增强（RRAG）—对传统 RAG 的增强优化

dotNET跨平台 ·

本研究提出了动态参数检索增强生成（DyPRAG）框架，旨在解决传统RAG方法在推理成本和知识冲突方面的不足。DyPRAG通过轻量级参数翻译模型动态增强大型语言模型的知识，降低了推理、训练和存储成本。实验结果表明，DyPRAG在知识融合能力上优于传统方法，有效缓解了RAG的幻觉问题。

Better Wit than Wealth: Dynamic Parametric Retrieval-Augmented Generation for Test-Time Knowledge Enhancement

BriefGPT - AI 论文速递 ·

本研究提出了一种优化的生成检索框架，旨在解决大型语言模型的幻觉问题。通过结合知识蒸馏推理和决策代理，显著提升了检索精度，并在支付宝的实际应用中验证了其有效性。

Mitigating Hallucinations in Generative Retrieval Based on Large Language Models in Alipay Search

BriefGPT - AI 论文速递 ·

本研究提出了新型视觉语言基础模型LRSCLIP及数据集LRS2M，解决了遥感视觉语言模型在长文本处理和短文本信息不足方面的“幻觉”问题，显著提升了跨模态检索的精度。

LRSCLIP：一种对齐遥感图像与长文本的视觉语言基础模型

BriefGPT - AI 论文速递 ·

理解RAG第八部分：减轻RAG中的幻觉

理解RAG第八部分：减轻RAG中的幻觉

MachineLearningMastery.com ·

本研究提出了一种创新方法，解决检索增强生成中的幻觉问题。通过轻量化的开放权重模型和量化大语言模型，提供易解释的评分指标，提升评估准确性，并引入新的AUC指标替代人类判断相关性。

Lightweight and Robust Evaluation for Retrieval-Augmented Generation

BriefGPT - AI 论文速递 ·

本研究针对多模态大型语言模型在密集图像描述中的幻觉问题，提出了新指标HalFscore来评估描述质量，并通过对抗性扰动文本提升生成描述的真实性。

PerturboLLaVA：通过扰动视觉训练减少多模态幻觉

BriefGPT - AI 论文速递 ·

本研究提出了一种高效的代理框架（PAF），旨在解决大语言模型（LLM）在复杂图形工作流中的对齐错误和幻觉问题。PAF通过结合LLM推理与向量评分机制，提高了准确性并降低了延迟，显著增强了对复杂用户输入的处理能力，为实时对话AI系统的可扩展性奠定了基础。

Efficient LLM Agent Framework for Conversational AI

BriefGPT - AI 论文速递 ·

本研究探讨了视觉-语言模型中的幻觉问题，提出了一种跨时间预测连接（TPC）方法，通过增强logits的语义一致性，显著减少幻觉现象，提高模型的准确性和效率。

Cross-Temporal Prediction Connection: Reducing Hallucinations in Vision-Language Models

BriefGPT - AI 论文速递 ·