代码生成的原理解析:从Codex、GitHub Copliot到CodeLlama、CodeGeex

我们在这篇文章《》中的2.5节有提到,“2021 年7月,OpenAI发布Codex的论文《》,其中初始的Codex是根据120亿参数的GPT-3变体进行微调的,且通过对159GB的Python代码进行代码训练,后来这个120 亿参数的模型演变成OpenAI...

本文介绍了代码生成的发展史和技术原理,包括GitHub copilot的起源和评估效果,pass@k度量的计算逻辑,Codex的训练全流程,以及微软GitHub copilot和Code Llama的训练流程、工作原理和性能。

原文中文,约5200字,阅读约需13分钟。发表于:
阅读原文