评估代码生成的上下文学习库

当今大型语言模型 (LLMs) 具备高度的代码生成和理解能力，特别是在解释用户指导任务时，它们对于解释陌生库中的代码模块显得尤为有希望。最近的研究表明，大型专有 LLMs 可以通过演示学习上下文中的新型库使用。这些结果引发了几个问题，即演示是否需要、是否较小的（更加开放的）模型也具备这种能力等等。本研究以更广泛的方法系统评估不同类型的 LLMs，在三个反映不同领域专业化程度的场景中，了解它们在基于上下文定义的库生成代码时的能力和限制。我们的研究结果表明，即使是开源的较小型 LLMs，如 Llama-2 和 StarCoder，也展现出了对新型代码库的熟练理解能力。我们的发现进一步揭示，LLMs 在学习新的库模块时表现出惊人的高度熟练度，即使只提供自然语言描述或函数的原始代码实现，这比演示要便宜得多。总体而言，我们的研究结果为在更具适应性和动态性的编码环境中利用 LLMs 铺平了道路。

大型语言模型（LLMs）在解释陌生库中的代码模块时表现出色，具备高度的代码生成和理解能力。研究发现，即使是较小的开源LLMs也能熟练理解新的代码库，表现出惊人的高度熟练度。这为在更具适应性和动态性的编码环境中利用LLMs铺平了道路。

观测云	LigaAI
Dify.AI	eolink

评估代码生成的上下文学习库

验证