Micropaper ·

一分钟读论文：《小语言模型作为评委提升代码生成》

💡 原文中文，约600字，阅读约需2分钟。

📝

内容提要

瑞士研究表明，小语言模型（SLM）作为代码评委的效果优于大模型，成本仅为其几十分之一。最佳评委为Qwen2.5 Coder 3B，性能显著提升。

🎯

关键要点

瑞士研究表明，小语言模型（SLM）作为代码评委的效果优于大模型。
最佳评委为Qwen2.5 Coder 3B，Kappa分数为0.57，超过GPT-4.1-mini。
生成10个候选加1个评委，比单模型提升5.3%-20.6%。
成本对比：SLM团队约$600，30B模型约$17,500，差了29倍。
Qwen2.5 Coder 3B的pass@1达到0.521，比同系列33B模型高3.4%。
具体提升效果：Phi-4 mini 4B提升20.6%，Qwen2.5 Coder 3B提升16.0%。
用两个小模型（一个生成代码，一个评委）能超越大模型，成本仅为几十分之一。

🏷️

继续阅读

一分钟读论文：《GitHub Copilot 的代码生成稳健吗？》
本研究探讨了GitHub Copilot的代码生成稳健性，发现不同表述的同一需求会导致约46%的代码差异，且在30%的情况下影响代码正确性，测试通过率仅为...
一分钟读论文：《软件稳定性：系统性文献综述》
这篇2018年论文系统梳理了软件稳定性研究，定义其为抵抗修改和错误的能力，强调其在软件工程中的重要性，并提供衡量指标，为未来研究指明方向，是了解该领域的良好起点。
一分钟读论文：《ChatGPT 提示模式：提升代码质量、重构、需求获取和软件设计》
范德堡大学的研究整理了13种可复用的ChatGPT提示模式，旨在帮助开发者自动化软件工程任务，涵盖需求获取、系统设计、代码质量和重构。这些提示模式适用于软...
很多人以为远程工作是“下限”
远程工作并非简单的选择，它要求更高的自驱力和学习能力。想回老家的人往往心态安逸，难以取得成绩。工作形式的变化不会自动带来更多休闲时间，成功需要付出努力。
数据湖与数据仓库、湖屋与数据网格：有什么区别？
在小公司，使用数据仓库通过SQL查询生成报告；在科技公司，利用数据湖处理原始数据；在跨国公司，接触数据网格，消费和生产数据产品。
Pinterest的CDC驱动摄取将数据库延迟从24小时缩短至15分钟
Pinterest推出新一代数据库摄取框架，解决了旧系统的延迟和复杂性问题，实现实时数据访问，数据延迟从24小时缩短至15分钟，优化资源利用，支持增量更新...

一分钟读论文：《小语言模型作为评委提升代码生成》

内容提要

关键要点

标签

继续阅读