小红花·文摘

本研究探讨了大语言模型（LLMs）在自动生成高质量后端应用程序时的功能性和安全性问题。BaxBench评估基准显示，LLMs的代码正确率仅为60%，且普遍存在安全漏洞，为更安全的软件开发提供了重要参考。