土法炼钢兴趣小组的博客 ·

大模型基础设施工程

💡 原文中文，约2600字，阅读约需7分钟。

📝

内容提要

本文探讨了大模型基础设施的演变，涵盖训练、推理、RAG和Agent等技术，介绍了适合工程师的新技术栈及其应用，包括开源和商业解决方案。

🎯

关键要点

大模型基础设施在短短三年内从单机训练演变为支持万亿参数的工业化推理和训练。
新技术栈包括CUDA、NCCL、FlashAttention等，缺乏系统化的工程师视角讲解。
涵盖训练、推理、RAG和Agent等技术，涉及开源和商业解决方案。
训练工程师需关注3D并行、MoE、RLHF等技术，推理工程师需掌握vLLM、SGLang等工具。
RAG与Agent工程师需了解向量库、GraphRAG等技术，平台与运营需关注服务化和成本管理。
文章分为六个部分，涵盖硬件与底层、训练工程、推理工程、RAG与Agent、服务化与运营、成本与未来。

❓

延伸问答

大模型基础设施的演变历程是怎样的？

大模型基础设施在三年内从单机训练演变为支持万亿参数的工业化推理和训练。

训练工程师需要掌握哪些关键技术？

训练工程师需关注3D并行、MoE、RLHF等技术。

推理工程师应该使用哪些工具？

推理工程师需掌握vLLM、SGLang等工具。

RAG与Agent工程师需要了解哪些技术？

RAG与Agent工程师需了解向量库、GraphRAG等技术。

大模型基础设施的未来发展趋势是什么？

未来可能涉及世界模型、Agentic OS和专用芯片等方向。

文章中提到的开源和商业解决方案有哪些？

开源解决方案包括vLLM、SGLang等，商业解决方案包括TensorRT-LLM、Triton等。

🏷️

继续阅读

Harness工程来自loser死磕：每次失败都变成永久规则
本文探讨了Harness工程学在AI编程助手中的重要性。Harness包括模型的提示词、工具和反馈机制，能够有效提升模型表现。每次失败都转化为永久规则，帮...
蒸馏 Google 工程基因：把高级工程师的判断力编码给 AI Agent
Addy Osmani 提出了将高级工程师判断力编码为 AI Agent 的方法，称为 agent-skills。该方法通过结构化工作流和明确的检查点，确...
Robo.ai宣布收购数据处理和压缩技术公司Neurovia，为机器经济构建数据基础设施
Robo.ai计划以1亿美元收购Neurovia AI，以加速构建物理AI基础设施。Neurovia专注于视频数据的压缩与传输。收购后，Robo.ai将成...
亚马逊不再强迫员工只能使用Kiro 现在可以重新使用Claude Code和Codex
亚马逊在员工的呼吁下，允许在AWS Bedrock平台上使用Claude Code和Codex，以确保数据安全。此前，亚马逊因竞争和数据保护原因禁止使用外...
Hyprland 0.55 版本发布，新增基于 Lua 的配置和用户自定义布局功能
Hyprland 0.55 版本发布，完成了 Lua 管理的配置过渡，并保持对旧配置的兼容性。新增布局 API，支持用户自定义窗口布局，改进了色彩管理和滚...
由于 Linux 桌面环境下没有一个好用的语音输入法，做了一个 web 浏览器版本的
这篇文章介绍了一款基于百度实时语音识别API的网页浏览器语音输入法，支持简体中文和英语，能够实时将语音转为文字，主要用于个人使用。GitHub地址提供了更多信息。