湍流:系统化和自动化测试代码调优的大型语言模型

📝

内容提要

我们提出了一种通过一个新的基准测试 Turbluence,系统评估针对代码生成的指导性大型语言模型(LLMs)的正确性和鲁棒性的方法。我们的发现表明,Turbulence 能够揭示 LLMs 的推理能力中的差距,这超出了仅仅强调 LLMs 有时会产生错误代码的范畴。

🏷️

标签

➡️

继续阅读