BriefGPT - AI 论文速递 ·

实际代码生成中的LLM幻觉：现象、机制与缓解

💡 原文中文，约2100字，阅读约需5分钟。

📝

内容提要

本研究探讨了大型语言模型（LLMs）在代码生成中的“幻觉”问题，定义并分类了代码幻觉，开发了CodeHalu基准测试集以检测幻觉现象。研究发现，LLMs生成的代码中19.7%存在幻觉，强调了改进模型和训练方法的必要性。实施缓解策略后，幻觉率显著降低，为未来的代码生成提供了重要见解。

🎯

🔎

本研究首次引入了代码幻觉的概念，并将其分为映射、命名、资源和逻辑四种类型。这种分类有助于开发者更好地理解和识别在使用大型语言模型生成代码时可能出现的具体问题，从而在实际应用中采取针对性的改进措施。

研究显示，19.7%的生成代码存在幻觉，这一比例反映了大型语言模型在代码生成中的可靠性问题。开发者在依赖这些模型时需谨慎，特别是在关键应用中，确保生成代码的准确性和安全性至关重要。

实施的缓解策略显著降低了幻觉率，某些模型的幻觉率降至3%以下。这表明，通过优化模型和训练方法，可以有效提升代码生成的质量，未来的研究应继续探索更高效的减轻幻觉的方法。

❓

代码幻觉是指大型语言模型生成的代码与预期功能或执行结果之间的不一致性，分为映射、命名、资源和逻辑四种类型。

研究发现，LLMs生成的代码中有19.7%存在幻觉。

CodeHalu基准测试集用于检测大型语言模型在编程过程中的幻觉现象，包含来自699个任务的8,883个样本。

实施缓解策略后，幻觉率显著降低，例如某模型的幻觉率降至3%以下。

LLMs在生成代码的准确性和可靠性方面存在显著差异，且幻觉现象是一个系统性和持久性的挑战。

研究提出了基于执行验证的代码幻觉定义方法，并将幻觉分为映射、命名、资源和逻辑四种主要类型。

🏷️