小红花·文摘

国内首家百亿估值纯推理GPU独角兽诞生！专访曦望联席CEO王湛：谁的推理成本更低谁就是赢家

量子位 ·

DeepSeek发布Tile Kernels：用TileLang榨干GPU并打破CUDA垄断

极道 ·

如何在GCP上使用HashiCorp Packer创建GPU优化的机器镜像

freeCodeCamp.org ·

从GPU到Token：AI基础设施竞争逻辑重构

量子位 ·

本文探讨了GPU在大模型训练中的优势，特别是与CPU的对比。GPU通过大量弱核和简化控制实现高算力密度，适合处理大规模矩阵运算。分析了GPU的执行模型、内存层级及Tensor Core的演进，强调带宽与算力平衡对性能的影响，并提出了优化策略以提高GPU在解码阶段的利用率。

【大模型基础设施工程】02：GPU 计算入门——SM、Tensor Core、HBM、NVLink

土法炼钢兴趣小组的博客 ·

NVIDIA Blackwell GPU内存架构的演变

freeCodeCamp.org ·

现代人工智能训练采用分布式架构，利用多个GPU进行大规模神经网络训练。主要挑战在于高效分配工作负载和同步加速器。应用数据并行性、完全分片数据并行性和混合分片数据并行性等技术，以降低内存使用并提高效率。同时，激活检查点和上下文并行性等方法也用于优化内存和计算性能。

CS231n 讲义：大规模分布式训练

Louis Aeilot's Blog ·

GPU 计算的起源

Tony Bai ·

新Adobe Premiere色彩分级模式在NVIDIA GPU上加速

NVIDIA Blog ·

Modular：TileTensor 第1部分 - 更安全、更高效的GPU内核

Modular Blog ·

在GPU编程中，页锁定主机内存可加速CPU与GPU之间的数据传输。文章探讨了页表的概念及其在多个进程共享页锁定内存时的GPU内存开销。每个进程都有独立的页表，可能导致内存浪费。为减少开销，建议使用CUDA进程间通信（IPC），通过主进程管理页锁定内存，避免重复的GPU页表，从而提高效率。

页锁定主机内存的页表

Lei Mao's Log Book ·

腾讯云因AI算力需求激增，将于2026年5月9日起对多项AI产品涨价5%。涉及GPU计算型服务器和容器服务，用户可在此之前按原价购买。

因AI算力需求激增导致硬件成本上涨腾讯云宣布对AI相关产品涨价5%

蓝点网 ·

Jay：一款正在为英特尔GPU开发的新型开源着色器编译器

实时互动网 ·

Triton是一种基于Python的并行编程语言和编译器，旨在高效编写自定义深度神经网络计算内核，并在现代GPU上运行。它提供了多种处理张量的函数，如argmax、argmin、max、min、reduce和sum。

【Triton 教程】triton-ops

HyperAI超神经 ·

浅谈次世代代码编辑器 Zed：Rust 原生性能、GPU 渲染 - 曦远Code

程序设计实验室 ·

Kubernetes在AI浪潮中的焦虑与重生

云原生 ·

KCD Beijing 2026 分享回顾：从 Device Plugin 到 DRA——GPU 调度范式升级与 HAMi-DRA 实践

dotNET跨平台 ·

美光计划将游戏GPU的GDDR显存进行堆叠，以满足AI数据中心对高内存的需求。这可能导致显存供应紧张和价格上涨。尽管GDDR内存性能低于HBM3，但堆叠后容量更大，AI行业愿意采用。这一变化可能会推高游戏显卡的价格。

美光探索将游戏GPU的GDDR显存堆叠起来组成大容量内存供应给AI数据中心

蓝点网 ·

密瓜智能亮相 KubeCon EU 2026：从展台、演讲到主论坛 Demo，HAMi 进入 AI 基础设施核心视野

dotNET跨平台 ·

“杭州六小龙”第一股来了！浙大校友创业，年入8亿冲刺IPO

量子位 ·

国内首家百亿估值纯推理GPU独角兽诞生！专访曦望联席CEO王湛：谁的推理成本更低谁就是赢家

DeepSeek发布Tile Kernels：用TileLang榨干GPU并打破CUDA垄断

如何在GCP上使用HashiCorp Packer创建GPU优化的机器镜像

从GPU到Token：AI基础设施竞争逻辑重构

【大模型基础设施工程】02：GPU 计算入门——SM、Tensor Core、HBM、NVLink

NVIDIA Blackwell GPU内存架构的演变

CS231n 讲义：大规模分布式训练

GPU 计算的起源

新Adobe Premiere色彩分级模式在NVIDIA GPU上加速

Modular：TileTensor 第1部分 - 更安全、更高效的GPU内核

页锁定主机内存的页表

因AI算力需求激增导致硬件成本上涨 腾讯云宣布对AI相关产品涨价5%

Jay：一款正在为英特尔GPU开发的新型开源着色器编译器

【Triton 教程】triton-ops

浅谈次世代代码编辑器 Zed：Rust 原生性能、GPU 渲染 - 曦远Code

Kubernetes在AI浪潮中的焦虑与重生

KCD Beijing 2026 分享回顾：从 Device Plugin 到 DRA——GPU 调度范式升级与 HAMi-DRA 实践

美光探索将游戏GPU的GDDR显存堆叠起来组成大容量内存供应给AI数据中心

密瓜智能亮相 KubeCon EU 2026：从展台、演讲到主论坛 Demo，HAMi 进入 AI 基础设施核心视野

“杭州六小龙”第一股来了！浙大校友创业，年入8亿冲刺IPO

因AI算力需求激增导致硬件成本上涨腾讯云宣布对AI相关产品涨价5%