实际代码生成中的LLM幻觉：现象、机制与缓解

本研究应对大型语言模型（LLMs）在实际代码生成中常出现的幻觉现象，特别是在复杂上下文依赖的场景下。通过对六种主流LLM的代码生成结果进行手动分析，建立了LLM生成代码的幻觉分类法，并提出了一种基于RAG的缓解方法，显示出在所有研究的LLM中都有一致的有效性。此研究为理解和改善代码生成过程中的幻觉现象提供了重要贡献。

大型语言模型在代码生成中取得进展，但生成代码有时不准确。研究提出代码幻觉概念，分为映射、命名、资源和逻辑四种类型。通过动态检测算法和CodeHalu基准测试集，评估16个模型的幻觉频率和性质。结果显示模型在准确性和可靠性上有差异，强调改进模型和训练方法的重要性。

llm 代码幻觉代码生成准确性可靠性模型评估