土法炼钢兴趣小组的博客 ·

【大模型基础设施工程】01：大模型基础设施全景 —— 训练、推理、RAG、Agent、观测

💡 原文中文，约22900字，阅读约需55分钟。

📝

内容提要

本文探讨了大模型基础设施的必要性与发展历程，强调大模型的特点，如计算和内存密集、状态重、故障常态化及高成本。系列文章将涵盖从硬件到应用的五层模型，帮助工程师理解大模型的工程化过程及其挑战。未来的工程创新将是降低成本的关键，推理侧的重要性将超过训练侧。

🎯

🔎

大模型基础设施不仅是一个技术问题，更是一个工程学科。其计算和内存密集的特性使得传统的后端经验难以适用，工程师需要重新审视故障处理、状态管理和成本控制等方面的设计。这些挑战要求团队具备跨学科的知识，以便在复杂的工程环境中有效应对。

推理和训练在工程上存在显著差异，推理阶段的算力消耗正在快速增长，尤其是在解码环节。工程师需关注推理集群的规模和性能优化，确保在高并发请求下仍能保持低延迟和高吞吐量。这种差异化的需求促使推理侧的技术创新不断涌现。

随着大模型技术的快速发展，未来的工程创新将集中在降低成本和提升推理效率上。工程师需要关注新兴的技术，如FP8量化和PagedAttention等，这些技术有潜力显著降低推理成本并提高模型的响应速度。掌握这些前沿技术将是工程师在竞争中脱颖而出的关键。

❓

大模型基础设施具有计算和内存密集、状态重、故障常态化及高成本等特点。

大模型的生命周期包括预训练、微调、推理等多个阶段。

推理和训练在算力消耗、状态管理和故障模型等方面存在显著差异，推理侧的算力消耗正在快速增长。

未来的工程创新将集中在降低成本，推理侧的重要性将超过训练侧。

大模型工程栈分为五层：硬件、系统软件、框架、应用和运营。

开源基础设施已经足够支撑严肃的LLM平台，推动了推理服务化市场的形成。

🏷️