小红花·文摘

Grace Hopper 系统将助力提升 Tumbleweed 的 Armv9 版本构建

openSUSE 中文社区 ·

Hopper Disassembler for macOS 5.18.1

obaby@mars ·

革新AI推理：DeepSeek发布FlashMLA——Hopper GPU的颠覆性加速工具

DEV Community ·

DeepSeek开源FlashMLA：Hopper GPU解码新标杆，测评大揭秘！

机器之心 ·

Hopper实现新高度，加速主流企业服务器的AI和高性能计算应用

NVIDIA Blog ·

本研究针对当前强化学习领域中基准测试选择的缺乏讨论和科学依据的问题，提出了将基准测试视为一门独立科学学科的观点。通过对不同Hopper环境的案例研究，发现基准选择极大影响算法性能评估，研究呼吁建立统一的语言和标准来合理化基准选择的过程。

我们可以普遍地跳跃吗？关于基准选择和设计的讨论，使用Hopper环境

BriefGPT - AI 论文速递 ·

Nvidia的硬件路线图及其对开发者的影响

The New Stack ·

英伟达推迟了最强芯片B200的发布，推出了阉割版B200A以满足中低端AI系统需求。B200A的内存带宽缩水一半，原因是封装工艺由CoWoS-L退回CoWoS-S。B200训练大模型面临挑战，如耗电、散热、网络设计等。英伟达回应称Hopper需求强劲，Blackwell样品试用已开始，产量有望下半年增加。

英伟达阉割版B200A曝光！最强芯片架构难产：产能不够，刀法来凑

量子位 ·

NVIDIA Grace Hopper超级芯片加速Murex MX.3分析性能，降低能耗

NVIDIA Blog ·

机架与滚动：NVIDIA Grace Hopper 系统齐聚GTC

NVIDIA Blog ·

本文介绍了FlashAttention-2前向传递的优化实现，使用了自定义融合的CUDA内核，适应NVIDIA Hopper架构，并使用开源的CUTLASS库编写。通过解释在线softmax和连续的GEMM内核融合的挑战和技术，利用Hopper特定的Tensor Memory Accelerator（TMA）和Warpgroup Matrix-Multiply-Accumulate（WGMMA）指令，定义和转换CUTLASS布局和张量，重叠复制和GEMM操作，并选择最优瓦片大小，平衡寄存器压力和共享内存利用率。在单个H100 PCIe GPU上的对比性测试中，与针对上一代NVIDIA Ampere架构进行优化的FlashAttention-2版本相比，FLOPs/s高出20-50%。