安志合的学习博客 ·

英伟达算力GPU主要型号及参数

💡 原文中文，约3300字，阅读约需8分钟。

📝

内容提要

A100和H100是英伟达的旗舰GPU，分别用于深度学习和高性能计算。A100基于Ampere架构，H100采用Hopper架构，性能显著提升。A800和H800是中国市场专供版，H20为新一代受限GPU。搭建算力中心需考虑算力需求、GPU选择、计算环境和软件配置。AI训练关注高带宽和精度，推理则重视低延迟和高吞吐量。

🎯

关键要点

A100是英伟达2020年发布的旗舰级数据中心GPU，基于Ampere架构，适用于深度学习训练和推理。
H100是A100的升级版，采用Hopper架构，计算性能显著提升，适合大型AI模型训练。
A800和H800是专为中国市场推出的受限版GPU，性能稍逊于A100和H100，但仍具备高计算能力。
H20是新一代受限版H100，预计将取代H800，适用于AI训练和推理。
搭建算力中心需考虑算力需求、GPU选择、计算环境和软件配置。
AI训练关注高带宽和高精度，推理则重视低延迟和高吞吐量。
训练任务需要高显存带宽，H100的带宽比A100快2-3倍。
AI训练依赖强大的FP16/TF32计算能力，推理则需要高效的INT8/FP16计算。
H100在Transformer模型训练和推理吞吐量方面表现优异。
搭建算力中心的成本因GPU型号不同而异，H100单卡价格约为$30,000。

❓

延伸问答

A100和H100的主要区别是什么？

A100基于Ampere架构，适用于深度学习训练和推理，而H100采用Hopper架构，计算性能显著提升，适合大型AI模型训练。

H20的性能特点是什么？

H20是新一代受限版H100，预计显存为64GB以上，计算性能介于A800和H800之间，适用于AI训练和推理。

搭建算力中心需要考虑哪些因素？

搭建算力中心需考虑算力需求、GPU选择、计算环境和软件配置。

AI训练和推理对GPU的要求有什么不同？

AI训练需要高带宽和高精度计算，而推理则重视低延迟和高吞吐量。

H100的单卡价格是多少？

H100的单卡价格约为$30,000。

A800和H800的市场定位是什么？

A800和H800是专为中国市场推出的受限版GPU，性能稍逊于A100和H100，适合AI推理和训练。

🏷️

继续阅读

起底 GPT Image 2 团队后，我扒出了一张华人师徒网
GPT Image 2 的研发团队由 13 名核心成员组成，华人占据重要位置。团队成员背景多样，涵盖深度学习和多模态模型研究，形成紧密的信任网络，促进了创...
MuP之上：4. 坚守参数的稳定性
通过前几篇文章的推导和计算，我们可以发现，第一篇《MuP之上：1. 好模型的三个特征》所提的三个稳定性指标通常可以分为“参数稳定性”和“增量稳定性”两部分...
刚刚，GPT-5.5发布！内测英伟达工程师：失去它像被截肢
GPT-5.5新模型在代码、知识工作和科学研究领域表现显著提升，效率更高，功能更强。与前代相比，GPT-5.5在编程和文档生成方面展现出更强的自主性和推理...
国内首家百亿估值纯推理GPU独角兽诞生！专访曦望联席CEO王湛：谁的推理成本更低谁就是赢家
曦望公司在一年内完成七轮融资，成为国内首家估值超百亿的纯推理GPU独角兽。王湛表示，推理算力需求激增，未来将超越训练算力。新一代推理GPU芯片启望S3旨在...
DeepSeek发布Tile Kernels：用TileLang榨干GPU并打破CUDA垄断
DeepSeek发布的Tile Kernels通过TileLang优化GPU性能，打破了CUDA的垄断，推动AI工程从模型设计转向系统能力。TileLan...
ICLR 2026 丨单任务可训练参数减少 125 倍！新方法 Task Tokens 助力具身智能提升复杂任务能力
以色列理工学院的研究团队提出了一种名为 Task Tokens 的方法，旨在高效适配行为基础模型（BFM）到特定任务。该方法通过减少可训练参数和提高收敛速...