一分钟读论文:《小语言模型作为评委提升代码生成》

💡 原文中文,约600字,阅读约需2分钟。
📝

内容提要

瑞士研究表明,小语言模型(SLM)作为代码评委的效果优于大模型,成本仅为其几十分之一。最佳评委为Qwen2.5 Coder 3B,性能显著提升。

🎯

关键要点

  • 瑞士研究表明,小语言模型(SLM)作为代码评委的效果优于大模型。
  • 最佳评委为Qwen2.5 Coder 3B,Kappa分数为0.57,超过GPT-4.1-mini。
  • 生成10个候选加1个评委,比单模型提升5.3%-20.6%。
  • 成本对比:SLM团队约$600,30B模型约$17,500,差了29倍。
  • Qwen2.5 Coder 3B的pass@1达到0.521,比同系列33B模型高3.4%。
  • 具体提升效果:Phi-4 mini 4B提升20.6%,Qwen2.5 Coder 3B提升16.0%。
  • 用两个小模型(一个生成代码,一个评委)能超越大模型,成本仅为几十分之一。
➡️

继续阅读