小红花·文摘

大型语言模型（LLMs）在自然语言理解和代码生成方面表现出色，但其生成代码的可靠性和鲁棒性仍需深入研究。研究提出了一个包含1208个编程问题的数据集RobustAPI，发现62%的GPT-4生成代码存在API误用，并分析了333个错误模式。研究旨在为开发代码质量保证技术提供依据，并探讨LLMs在代码生成和漏洞检测中的应用与挑战。