小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
沉浸式翻译 immersive translate
最新数据显示,NVIDIA Blackwell Ultra在代理AI应用中提供高达50倍的性能提升和35倍的成本降低

微软和Oracle等云服务商正在大规模部署NVIDIA GB300 NVL72系统,以支持低延迟和长上下文的AI应用。NVIDIA Blackwell平台的广泛应用降低了每个token的成本,GB300 NVL72在低延迟和长上下文场景中表现优异,推动了AI编程助手的快速发展。

最新数据显示,NVIDIA Blackwell Ultra在代理AI应用中提供高达50倍的性能提升和35倍的成本降低

NVIDIA Blog
NVIDIA Blog · 2026-02-16T17:00:40Z
领先的推理提供商通过NVIDIA Blackwell上的开源模型将AI成本降低至10倍

Baseten、DeepInfra、Fireworks AI和Together AI通过NVIDIA Blackwell平台优化推理堆栈,显著降低各行业的每个token成本。MIT研究表明,基础设施和算法效率每年可将推理成本降低10倍。医疗、游戏和客户服务等领域的公司利用开源模型和NVIDIA Blackwell实现了成本节约和响应时间提升。

领先的推理提供商通过NVIDIA Blackwell上的开源模型将AI成本降低至10倍

NVIDIA Blog
NVIDIA Blog · 2026-02-12T16:00:46Z
推动vLLM WideEP和大规模服务在Blackwell平台上的成熟(第一部分)

vLLM团队在NVIDIA GB200平台上优化性能,实现26.2K预填TPGS和10.1K解码TPGS,较H200提升3-5倍。通过低精度操作、内核融合和权重卸载等技术,显著提升计算效率和带宽利用率。

推动vLLM WideEP和大规模服务在Blackwell平台上的成熟(第一部分)

vLLM Blog
vLLM Blog · 2026-02-03T00:00:00Z

TL;DR: In collaboration with the open-source community, vLLM + NVIDIA has achieved significant performance milestones on the gpt-oss-120b model running on NVIDIA’s Blackwell GPUs. Through deep...

GPT-OSS Performance Optimizations on NVIDIA Blackwell: Pushing the Pareto Frontier

vLLM Blog
vLLM Blog · 2026-02-01T00:00:00Z

今天,我们宣布 Amazon Elastic Compute Cloud(Amazon EC2)G7e 实例正 […]

宣布推出由 NVIDIA RTX PRO 6000 Blackwell 服务器版 GPU 加速的 Amazon EC2 G7e 实例

亚马逊AWS官方博客
亚马逊AWS官方博客 · 2026-01-20T07:59:20Z
NVIDIA RTX PRO 5000 72GB Blackwell显卡现已上市,扩展桌面智能AI的内存选项

NVIDIA RTX PRO 5000 72GB显卡已上市,具备强大的AI能力,适合开发者和设计师。其72GB内存支持复杂的AI工作流,显著提升图像和文本生成性能,优化创意与工程设计流程。

NVIDIA RTX PRO 5000 72GB Blackwell显卡现已上市,扩展桌面智能AI的内存选项

NVIDIA Blog
NVIDIA Blog · 2025-12-18T16:00:28Z
Supermicro扩大NVIDIA Blackwell架构产品系列

Super Micro Computer推出全新4U与2U液冷NVIDIA HGX B300系统,提升GPU密度与能源效率,适用于超大规模数据中心与AI工厂,最大化空间利用并降低电力消耗。

Supermicro扩大NVIDIA Blackwell架构产品系列

全球TMT-美通国际
全球TMT-美通国际 · 2025-12-12T06:59:40Z
专家混合架构驱动最智能的前沿AI模型,在NVIDIA Blackwell NVL72上运行速度提升10倍

当前最先进的开源模型如Kimi K2 Thinking和Mistral Large 3采用专家混合架构(MoE),在NVIDIA GB200 NVL72上运行速度提升10倍。MoE模型通过激活特定“专家”提高效率,降低计算成本,已成为前沿模型的标准。NVIDIA的协同设计解决了MoE模型的扩展瓶颈,显著提升了性能和能效。

专家混合架构驱动最智能的前沿AI模型,在NVIDIA Blackwell NVL72上运行速度提升10倍

NVIDIA Blog
NVIDIA Blog · 2025-12-03T16:00:32Z
英伟达市值剑指五万亿大关,Blackwell 领跑,Rubin 接力,AI 基建即将迎来需求爆炸

在2025年秋季GTC大会上,英伟达的黄仁勋展示了Blackwell平台的强大性能,预计将出货600万处理器,速度提升九倍,降低AI生成成本。同时,英伟达与诺基亚合作开发6G技术,推动AI与通信的深度融合,强调AI是未来经济增长的核心动力。

英伟达市值剑指五万亿大关,Blackwell 领跑,Rubin 接力,AI 基建即将迎来需求爆炸

爱范儿
爱范儿 · 2025-10-29T06:00:40Z
礼来公司部署全球最大、最强大的AI工厂,利用基于NVIDIA Blackwell的DGX SuperPOD进行药物发现

AI工厂将用于训练大规模生物医学模型,支持药物发现与开发。Lilly TuneLab平台利用NVIDIA FLARE的联邦学习基础设施,确保数据隐私,随着参与公司增多,模型将不断完善,推动个性化药物的发展。

礼来公司部署全球最大、最强大的AI工厂,利用基于NVIDIA Blackwell的DGX SuperPOD进行药物发现

NVIDIA Blog
NVIDIA Blog · 2025-10-28T18:00:02Z
美国制造智能的引擎:NVIDIA与TSMC庆祝首个在美国生产的NVIDIA Blackwell晶圆

美国制造AI技术的庆祝活动展示了创新和供应链的加强。NVIDIA与TSMC合作,生产首个Blackwell晶圆,标志着量产的里程碑,推动美国在AI领域的领导地位,以满足日益增长的需求。

美国制造智能的引擎:NVIDIA与TSMC庆祝首个在美国生产的NVIDIA Blackwell晶圆

NVIDIA Blog
NVIDIA Blog · 2025-10-17T21:27:28Z
NVIDIA Blackwell在新的InferenceMAX基准测试中提升标准,提供无与伦比的性能和效率

NVIDIA Blackwell在InferenceMAX基准测试中表现优异,提供最高性能和最佳效率。其GB200 NVL72系统投资500万美元,带来7500万美元收益,回报率达15倍。通过软件优化,成本降至每百万个令牌两美分,效率显著提升。Blackwell架构结合硬件与软件设计,推动AI推理经济发展。

NVIDIA Blackwell在新的InferenceMAX基准测试中提升标准,提供无与伦比的性能和效率

NVIDIA Blog
NVIDIA Blog · 2025-10-09T23:22:25Z
SemiAnalysis InferenceMAX:vLLM与NVIDIA加速Blackwell推理

与NVIDIA合作,优化Blackwell GPU架构以提升大语言模型的推理性能。通过重构和开发新内核,vLLM在Blackwell上实现了最高4倍的吞吐量提升,显著提高了推理效率。新基准测试显示,Blackwell在多种交互场景下表现优异,持续推动推理性能提升。

SemiAnalysis InferenceMAX:vLLM与NVIDIA加速Blackwell推理

vLLM Blog
vLLM Blog · 2025-10-09T00:00:00Z
SuperX发布搭载NVIDIA Blackwell GPU的旗舰AI服务器

Super X AI Technology Limited推出SuperX XN9160-B300 AI服务器,搭载NVIDIA Blackwell GPU,专为大规模AI训练和推理设计,具备高性能和扩展性,适合多种高强度应用。

SuperX发布搭载NVIDIA Blackwell GPU的旗舰AI服务器

全球TMT-美通国际
全球TMT-美通国际 · 2025-10-04T02:26:14Z
模块化:在Blackwell上的矩阵乘法:第4部分 - 打破SOTA

本文介绍了在NVIDIA Blackwell上优化矩阵乘法内核的过程,重点在于集群启动控制(CLC)优化。通过使用持久内核和调度器,消除了共享内存和障碍初始化的开销,性能提升15%,达到1772 TFLOPs,超越当前的SOTA。此外,探讨了通过块交换提高L2缓存命中率,从而实现更高效的调度和性能。

模块化:在Blackwell上的矩阵乘法:第4部分 - 打破SOTA

Modular Blog
Modular Blog · 2025-09-19T00:00:00Z
NVIDIA Blackwell:为极大规模AI推理而生

Blackwell是为AI工厂设计的系统架构核心,支持数百亿参数的AI模型,预计下代模型将超过万亿参数。为满足需求,需要扩展数据中心,利用数千台计算机共享工作,但构建更大计算机可实现更高性能和能效。

NVIDIA Blackwell:为极大规模AI推理而生

NVIDIA Blog
NVIDIA Blog · 2025-09-18T15:00:25Z
美超微宣布其NVIDIA Blackwell Ultra解决方案全面上市

Supermicro宣布全面上市NVIDIA Blackwell Ultra解决方案,包括即插即用的NVIDIA HGX B300系统和GB300 NVL72机架,支持多种人工智能应用,具备先进冷却设计,提升GPU功耗利用率,确保高性能与效率。

美超微宣布其NVIDIA Blackwell Ultra解决方案全面上市

全球TMT-美通国际
全球TMT-美通国际 · 2025-09-15T03:14:27Z
模块化:Blackwell上的矩阵乘法:第三部分 - 达到85%最先进性能的优化

本文探讨了在NVIDIA Blackwell GPU上通过2SM技术和流水线优化矩阵乘法性能,达到360.2 TFLOPs,接近85%的最先进水平。采用多播和2xSM MMA优化共享内存,减少数据冗余,并通过流水线技术提升计算与内存传输的重叠,最终实现1429 TFLOPs,达到81%的目标。

模块化:Blackwell上的矩阵乘法:第三部分 - 达到85%最先进性能的优化

Modular Blog
Modular Blog · 2025-09-12T00:00:00Z
NVIDIA Blackwell Ultra在新的MLPerf推理基准测试中树立了标杆

NVIDIA GB300 NVL72系统在推理基准测试中表现优异,提升了AI工厂的吞吐量并降低了总拥有成本。新架构Blackwell Ultra提供更强的计算能力和内存,优化大型语言模型推理,显著提升性能。

NVIDIA Blackwell Ultra在新的MLPerf推理基准测试中树立了标杆

NVIDIA Blog
NVIDIA Blog · 2025-09-09T15:00:44Z
模块化:Blackwell上的矩阵乘法:第二部分 - 利用硬件特性优化矩阵乘法

本文探讨了Nvidia Blackwell GPU架构下的矩阵乘法优化,采用共享内存和循环分块技术,性能提升超过50倍。通过利用Tensor Memory和新指令集tcgen05.mma,进一步提高计算效率。尽管取得显著进展,但仍未达到cuBLAS的性能水平,后续将继续优化。

模块化:Blackwell上的矩阵乘法:第二部分 - 利用硬件特性优化矩阵乘法

Modular Blog
Modular Blog · 2025-09-05T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码