最近的大型语言模型 (LLMs) 在编码能力方面取得了显著进展。研究人员提出了一个名为DevBench的全面基准,用于评估真实世界编程活动的挑战。经验证实证研究发现,当前的LLMs未能解决DevBench中的挑战。这些发现为未来LLMs在真实世界编程应用方面提供了有价值的洞察。
完成下面两步后,将自动完成登录并继续当前操作。