小红花·文摘

最近的大型语言模型 (LLMs) 在编码能力方面取得了显著进展。研究人员提出了一个名为DevBench的全面基准，用于评估真实世界编程活动的挑战。经验证实证研究发现，当前的LLMs未能解决DevBench中的挑战。这些发现为未来LLMs在真实世界编程应用方面提供了有价值的洞察。