机器之心 ·

明确了：文本数据中加点代码，训练出的大模型更强、更通用

💡 原文中文，约3800字，阅读约需9分钟。

📝

内容提要

代码对大语言模型（LLM）的性能有重要影响，改进代码质量和保留代码数据可以产生积极影响。使用标记样式的编程语言、合成生成的代码和代码相邻数据可以提高预训练的性能。预训练模型初始化和代码数据比例也对模型性能有影响。

🎯

关键要点

代码知识对大语言模型（LLM）的性能至关重要。
预训练数据集中包含代码是提升模型性能的关键因素。
研究表明，代码质量的改进对所有任务都有显著影响。
使用合成生成的代码和代码相邻数据可以提高预训练性能。
在预训练冷却中包含代码数据可进一步改善模型性能。
代码预训练模型初始化可显著提高自然语言任务的性能。
高质量合成生成的代码数据集能提高自然语言推理和代码性能。
冷却阶段的代码数据能提高自然语言推理、世界知识和代码性能。
研究评估了不同规模模型的性能，发现代码对非代码任务的性能有重大改进。
使用标记样式的编程语言和相邻代码数据集对模型性能有积极影响。

❓

延伸问答

代码在大语言模型中的作用是什么？

代码对大语言模型的性能至关重要，能够显著提升自然语言推理和其他非代码任务的表现。

如何提高大语言模型的预训练性能？

通过改进代码质量、使用合成生成的代码和相邻代码数据，可以显著提高预训练性能。

预训练冷却阶段包含代码数据有什么好处？

在预训练冷却阶段包含代码数据，可以进一步提高自然语言推理、世界知识和代码性能。

使用合成生成的代码对模型性能有什么影响？

使用合成生成的代码可以提高自然语言推理和代码性能，分别提高9%和44%。

代码质量如何影响大语言模型的表现？

代码质量的提高对所有任务都有显著影响，尤其是在自然语言推理和代码生成任务中。

不同规模的模型在使用代码数据时表现如何？

研究表明，代码对不同规模模型的性能都有重大改进，尤其是在自然语言推理和世界知识任务中。

🏷️

继续阅读

[开源] 阿里巴巴发布AI驱动的代码审查工具Open Code Review 帮助开发者审查代码
阿里巴巴开源了基于人工智能的代码审查工具Open Code Review（OCR），旨在解决传统审查中的覆盖不全、位置漂移和不稳定等问题。开发者可通过配置...
Miso Labs发布MisoTTS：一款拥有开放权重的80亿情感文本转语音模型
Miso Labs发布了MisoTTS，这是一款拥有80亿参数的文本转语音模型，采用残差矢量量化技术，能够根据文本和音频上下文生成富有表现力的语音。该模型...
代理时代对数据科学的意义
人工智能与数据科学的交汇点正在变化，AI系统能够自主执行多步骤任务，改变了数据科学家的工作。数据科学家需要结合统计思维、编程能力和领域专业知识，同时设计和...
基于 Amazon ECS Fargate 和 Graviton 构建企业级多租户 AI Agent 平台：OpenClaw + Hermes 双 Agent 实践
本文介绍了基于Amazon ECS Fargate和Graviton构建的企业级多租户AI Agent平台，结合OpenClaw和Hermes两个开源Ag...
第28期大数据师资培训班报名主页（Hadoop+Spark+实战案例班，暑假，泉州，2026年8月6日-13日）
第28期大数据师资培训班将于2026年8月在泉州举行，旨在提升中国高校大数据课程的教学水平。培训内容包括课程知识体系、授课方法和实验环境搭建，帮助教师建立...
Article Series: Securing the AI Stack: From Model to Production
This series provides your roadmap for the machine age, exploring how to move ...