Lei Mao's Log Book ·

CUDA性能测量：热状态与冷状态的比较

💡 原文英文，约1000词，阅读约需4分钟。

📝

内容提要

本文探讨了CUDA内核性能测量，包括“热”状态和“冷”状态。由于缓存效应，性能测量可能与实际性能不符。为消除缓存影响，可在每次运行内核前刷新GPU L2缓存。通过示例代码展示了这一过程，并比较了两种状态下的延迟差异。

🎯

❓

CUDA内核的性能通常通过多次运行内核并取平均执行时间来测量。

'热'状态是指内核从L2缓存读取数据，而'冷'状态则是从DRAM读取数据。

可以在每次运行内核前刷新GPU L2缓存，以消除缓存影响。

可以通过分配同样大小的缓冲区并写入值来驱逐缓存值。

NVIDIA Nsight Compute工具默认在每次重放前刷新所有GPU缓存，以确保性能计数器值的确定性。

性能差异主要由于缓存效应，但如果内核不是内存绑定的，差异可能微不足道。

🏷️

穆罕默德·阿基尔：易变查询与语义缓存：如何确保始终返回正确答案
pg_semantic_cache是一个用于PostgreSQL的语义缓存工具，旨在优化查询处理。文章讨论了如何区分可缓存和不可缓存的查询，强调应用层应负...
五月来了：本月16款游戏登陆云端，NVIDIA GeForce RTX 5080性能再升级
本月，GeForce NOW将新增16款游戏，包括《极限竞速：地平线6》和《007：第一光》。Ultimate会员可享受RTX 5080级别的云游戏性能。...
游戏性能旗舰最强之选，一加Ace 6至尊版国补到手价2999元起
一加于2026年发布了Ace 6至尊版，搭载天玑9500芯片，专为游戏优化，支持165Hz超高帧率。配备8600mAh电池和120W闪充，具备IP66/I...
NVIDIA Launches Ising Open Models for Quantum Computing
NVIDIA has announced a new family of open models called NVIDIA Ising, designe...
Vibhor Kumar：平稳平台测试：您的PostgreSQL策略是否适合企业？
Features create capability. Calm operations create trust. Most platfor...
Rivian的收入增长，R2生产加速
Rivian reported its first quarter earnings of 2026, providing us a closer loo...