Tw93 的博客 ·

你不知道的大模型训练：原理、路径与新实践

💡 原文中文，约13900字，阅读约需34分钟。

📝

内容提要

大模型训练不仅依赖预训练，还包括后训练、评测和奖励等环节。用户体验的提升主要源于后期优化，而非单一因素。数据质量和训练流程设计对模型能力至关重要，模型表现与训练系统、架构及反馈机制密切相关。

🎯

关键要点

大模型训练包括预训练、后训练、评测和奖励等环节，用户体验的提升主要源于后期优化。
数据质量和训练流程设计对模型能力至关重要，模型表现与训练系统、架构及反馈机制密切相关。
训练过程是一条流水线，各层高度耦合，变化会影响其他层。
预训练是模型能力的基础，决定知识范围和泛化潜力，但无法决定模型的指令遵循和用户配合能力。
数据配方决定模型能力，数据清洗和去重对结果影响显著。
系统和架构的约束在训练前就要考虑，GPU数量、显存带宽等因素影响模型训练的规模和复杂性。
后训练阶段决定用户感受到的差距，包括指令微调和强化学习等方法。
评测和奖励设计对模型优化至关重要，需关注过程质量和反馈回路。
Agent训练阶段不仅优化模型本身，还需考虑环境的稳定性和反馈机制。
发布的模型通常经过多轮训练和优化，最终选择的版本是基于产品决策而非单一指标。
未来模型的价值在于持续产出训练数据和优化反馈回路，训练和部署之间的边界正在缩短。

❓

延伸问答

大模型训练的主要环节有哪些？

大模型训练主要包括预训练、后训练、评测和奖励等环节。

后训练阶段对用户体验的影响是什么？

后训练阶段通过指令微调和强化学习等方法，显著提升用户的使用体验。

数据质量如何影响模型的能力？

数据质量和训练流程设计对模型能力至关重要，数据清洗和去重显著影响模型的表现。

预训练在大模型训练中扮演什么角色？

预训练是模型能力的基础，决定知识范围和泛化潜力，但无法决定模型的指令遵循和用户配合能力。

训练系统的设计在大模型训练中有何重要性？

训练系统和架构的约束在训练前就要考虑，这影响模型训练的规模和复杂性。

发布模型时通常会考虑哪些因素？

发布的模型通常经过多轮训练和优化，最终选择的版本基于产品决策而非单一指标。

🏷️

继续阅读

Kthena + vLLM-Ascend：云原生大模型推理的编排与调度实践
本文探讨了Kthena与vLLM-Ascend在云原生大模型推理中的应用，解决了Kubernetes在分布式推理中的拓扑约束和状态感知缺失问题。Kthen...
CS231n 讲义 VI：卷积神经网络架构与训练
验证损失应从合理值（如分类的 ext{log(num_classes)}）开始。较大的偏差通常表明存在实现问题，如标签或损失计算错误。
Vibe Coding AI 编程实践
近年来，AI 辅助编程迅速发展，成为计算机工程师的重要技能。随着技术进步，AI 生成代码的质量显著提高。开发者需掌握使用 AI 的技巧，如选择合适模型、详...
小米MiMo大模型首次推出Token Plan，单次订阅可满足全模态Agent任务需求
小米推出MiMo大模型的Token Plan，提供四种订阅方案，满足不同开发者需求。该计划透明计费，支持灵活调用多种模型，无使用时间限制，提升用户体验。
全球权威大模型盲测榜单公布，阿里千问3.6登顶中国最强编程模型
阿里巴巴的Qwen 3.6-Plus在全球编程模型中排名第二，超越OpenAI和Google，成为中国最强编程模型。该模型在复杂Web开发中表现优异，推动...
早报｜豆包大模型日均Token使用量破120万亿/广电行业组织发布AI换脸严正声明/任天堂前销售负责人：Switch 2涨价几乎不可避免
DeepSeek V4预计四月发布，但难以成为最强模型。XREAL已递交港股IPO申请，小米SU7和YU7在J.D. Power榜单中双双获奖。豆包大模型...