土法炼钢兴趣小组的博客 ·

【大模型基础设施工程】02：GPU 计算入门——SM、Tensor Core、HBM、NVLink

💡 原文中文，约26300字，阅读约需63分钟。

📝

内容提要

本文探讨了GPU在大模型训练中的优势，特别是与CPU的对比。GPU通过大量弱核和简化控制实现高算力密度，适合处理大规模矩阵运算。分析了GPU的执行模型、内存层级及Tensor Core的演进，强调带宽与算力平衡对性能的影响，并提出了优化策略以提高GPU在解码阶段的利用率。

🎯

❓

GPU通过大量弱核和简化控制实现高算力密度，适合处理大规模矩阵运算，尤其在并行计算方面表现优越。

Tensor Core是专门用于小矩阵乘累加的硬件单元，其演进使GPU的峰值算力显著提升，适用于更复杂的计算任务。

GPU的内存层级比CPU更陡峭，程序员需要显式管理内存，且GPU的带宽和延迟特性使得内存管理更加复杂。

优化策略包括连续批处理和推测解码，以提高GPU在解码阶段的算力利用率。

GPU的执行模型为Grid/Block/Warp/Thread，支持高并行度的计算，允许数百万个线程同时执行。

GPU的性能上限受算力和带宽的共同影响，算术强度（AI）决定了性能的瓶颈。

🏷️

与TorchRec KeyedJaggedTensor的同步
推荐系统中的稀疏特征用于建模用户偏好和物品特性，但存在输入数据长度不一和内存浪费的问题。TorchRec的KeyedJaggedTensor通过合并稀疏特...
[译] 我所知道的全部智能体工程技巧（2026 年 6 月）
本文探讨了智能体工程的技巧，强调使用计划文件和智能体协作来提高工作效率。作者分享了通过语音输入、并行处理和自动化工具简化开发流程的经验，建议将想法转化为计...
法国量子计算公司Quobly完成1.15亿欧元A轮融资
法国量子计算公司Quobly完成1.15亿欧元A轮融资，主要投资者包括Bpifrance和意法半导体。融资将用于研发和国际扩展，计划于2026年底推出首台...
存之有序，治之有矩——Agent 记忆系统的工程实践与演进
本文探讨了Agent记忆系统的工程实践与演进，分析了记忆写入纪律、Prompt Cache冲突、跨模型容量、Embedding迁移及Agent自产Skil...
Ayar Labs NVLink Fusion逻辑解析：CPO到SuperNova再到MACOM和SIVE完整链条
Ayar Labs 加入 NVLink Fusion 项目，依赖 CPO 技术和 SuperNova 外部光源。SuperNova 的激光阵列由 MACO...
Gemma 4 QAT models: Optimizing model compression for mobile and laptop efficiency
Gemma 4 Quantization-Aware Training (QAT)