小红花·文摘

本文介绍了新的基准测试，测试多语言环境下代码生成模型的性能，并发现多语言模型的优势。作者通过 few-shot prompting 实现了对模型新语言的教学能力和在单语言环境下的 zero-shot translation 能力。同时，作者利用其代码生成模型在多种语言上实现了大规模引导过程，产生了其他评估任务中使用的合成规范解决方案。