小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
国内首家百亿估值纯推理GPU独角兽诞生!专访曦望联席CEO王湛:谁的推理成本更低谁就是赢家

曦望公司在一年内完成七轮融资,成为国内首家估值超百亿的纯推理GPU独角兽。王湛表示,推理算力需求激增,未来将超越训练算力。新一代推理GPU芯片启望S3旨在将百万Token成本降至一分钱,以满足高频调用和长上下文的需求,推动AI技术普及。

国内首家百亿估值纯推理GPU独角兽诞生!专访曦望联席CEO王湛:谁的推理成本更低谁就是赢家

量子位
量子位 · 2026-04-23T14:28:57Z
DeepSeek发布Tile Kernels:用TileLang榨干GPU并打破CUDA垄断

DeepSeek发布的Tile Kernels通过TileLang优化GPU性能,打破了CUDA的垄断,推动AI工程从模型设计转向系统能力。TileLang简化了GPU开发,支持跨硬件执行,提升了效率。然而,技术进步导致能力差距扩大,顶级团队获得更高效率,而大多数团队难以跟上。这一变化将重塑AI基础设施的竞争格局。

DeepSeek发布Tile Kernels:用TileLang榨干GPU并打破CUDA垄断

极道
极道 · 2026-04-23T12:52:00Z
如何在GCP上使用HashiCorp Packer创建GPU优化的机器镜像

本文介绍了如何使用Packer构建可重用的GPU优化机器镜像,预装NVIDIA驱动、CUDA工具包和DCGM。步骤包括安装Packer、设置项目目录、定义源、编写构建模板和GPU配置脚本,从而创建适用于机器学习和高性能计算的生产级GPU基础镜像,避免重复的手动配置。

如何在GCP上使用HashiCorp Packer创建GPU优化的机器镜像

freeCodeCamp.org
freeCodeCamp.org · 2026-04-22T20:30:00Z
从GPU到Token:AI基础设施竞争逻辑重构

商汤大装置在全球AI工厂市场中受到Omdia高度评价,开创了“智能精炼”范式,推动AI基础设施的结构性变革。其AI数字工厂架构分为四层,旨在实现智能生产与交付,通过优化算法、数据和算力,降低AI应用门槛,提升生产效率和成本优势,展现出强大的全球竞争力。

从GPU到Token:AI基础设施竞争逻辑重构

量子位
量子位 · 2026-04-22T04:48:03Z

本文探讨了GPU在大模型训练中的优势,特别是与CPU的对比。GPU通过大量弱核和简化控制实现高算力密度,适合处理大规模矩阵运算。分析了GPU的执行模型、内存层级及Tensor Core的演进,强调带宽与算力平衡对性能的影响,并提出了优化策略以提高GPU在解码阶段的利用率。

【大模型基础设施工程】02:GPU 计算入门——SM、Tensor Core、HBM、NVLink

土法炼钢兴趣小组的博客
土法炼钢兴趣小组的博客 · 2026-04-22T00:00:00Z
NVIDIA Blackwell GPU内存架构的演变

NVIDIA的Blackwell架构将在2024年推出,解决GPU内存限制问题。通过双芯片设计和统一的CPU-GPU内存,Blackwell显著提升了内存容量和带宽,使大型模型如Llama 3 70B能够在单个超级芯片上运行,简化了部署并减少了多GPU通信的复杂性。这一架构使AI工程师能更专注于模型开发。

NVIDIA Blackwell GPU内存架构的演变

freeCodeCamp.org
freeCodeCamp.org · 2026-04-21T17:44:01Z

现代人工智能训练采用分布式架构,利用多个GPU进行大规模神经网络训练。主要挑战在于高效分配工作负载和同步加速器。应用数据并行性、完全分片数据并行性和混合分片数据并行性等技术,以降低内存使用并提高效率。同时,激活检查点和上下文并行性等方法也用于优化内存和计算性能。

CS231n 讲义:大规模分布式训练

Louis Aeilot's Blog
Louis Aeilot's Blog · 2026-04-19T00:45:09Z
GPU 计算的起源

GPU计算起源于三十年的政府资助研究,涵盖并行计算、图形系统和流处理等技术。这些研究推动了GPU的快速发展,使其成为现代数据中心和人工智能革命的核心。英伟达等公司将这些技术转化为实际应用,促进了深度学习的普及,GPU的高效计算能力支持了大规模数据集的处理,推动了机器学习的进步。

GPU 计算的起源

Tony Bai
Tony Bai · 2026-04-17T00:20:14Z
新Adobe Premiere色彩分级模式在NVIDIA GPU上加速

Adobe Premiere推出新的色彩分级模式,利用NVIDIA RTX技术加速创作流程,提供干净的界面和32位色深,提升性能和质量。同时,NVIDIA更新了Project G-Assist,增强AI助手功能,帮助用户优化系统设置。

新Adobe Premiere色彩分级模式在NVIDIA GPU上加速

NVIDIA Blog
NVIDIA Blog · 2026-04-15T13:00:38Z
Modular:TileTensor 第1部分 - 更安全、更高效的GPU内核

TileTensor是Mojo语言中的一种张量类型,旨在简化GPU内核的内存布局管理。它允许开发者安全、高效地表达复杂的内存布局,避免手动计算地址的错误。TileTensor支持嵌套布局和内存银行冲突的解决方案,并通过编译时检查确保访问模式的有效性,提高代码的安全性和可维护性。

Modular:TileTensor 第1部分 - 更安全、更高效的GPU内核

Modular Blog
Modular Blog · 2026-04-13T00:00:00Z

在GPU编程中,页锁定主机内存可加速CPU与GPU之间的数据传输。文章探讨了页表的概念及其在多个进程共享页锁定内存时的GPU内存开销。每个进程都有独立的页表,可能导致内存浪费。为减少开销,建议使用CUDA进程间通信(IPC),通过主进程管理页锁定内存,避免重复的GPU页表,从而提高效率。

页锁定主机内存的页表

Lei Mao's Log Book
Lei Mao's Log Book · 2026-04-12T07:00:00Z

腾讯云因AI算力需求激增,将于2026年5月9日起对多项AI产品涨价5%。涉及GPU计算型服务器和容器服务,用户可在此之前按原价购买。

因AI算力需求激增导致硬件成本上涨 腾讯云宣布对AI相关产品涨价5%

蓝点网
蓝点网 · 2026-04-09T07:25:59Z
Jay:一款正在为英特尔GPU开发的新型开源着色器编译器

Jay是一款新型开源着色器编译器,旨在提升英特尔硬件在Linux上的图形性能。由Alyssa Rosenzweig领导开发,目前仅支持Intel Xe2硬件,性能优于现有编译器,代码质量更高,运行速度更快,未来将逐步扩展支持。

Jay:一款正在为英特尔GPU开发的新型开源着色器编译器

实时互动网
实时互动网 · 2026-04-08T01:56:17Z

Triton是一种基于Python的并行编程语言和编译器,旨在高效编写自定义深度神经网络计算内核,并在现代GPU上运行。它提供了多种处理张量的函数,如argmax、argmin、max、min、reduce和sum。

【Triton 教程】triton-ops

HyperAI超神经
HyperAI超神经 · 2026-04-07T02:49:03Z
浅谈次世代代码编辑器 Zed:Rust 原生性能、GPU 渲染 - 曦远Code

Zed 是一款由 Atom 团队核心成员开发的轻量级高性能代码编辑器,使用 Rust 编写,旨在提升编辑体验。其特点包括低延迟输入、实时语法分析和强大协作功能。尽管生态和功能不及 VS Code,但在特定场景下,Zed 是一个不错的选择。

浅谈次世代代码编辑器 Zed:Rust 原生性能、GPU 渲染 - 曦远Code

程序设计实验室
程序设计实验室 · 2026-04-05T02:12:00Z
Kubernetes在AI浪潮中的焦虑与重生

在2026年KubeCon上,Kubernetes需重新定义其角色,以应对AI工作负载的挑战。AI的兴起考验了Kubernetes的通用性,特别是在GPU资源管理和推理调度方面。尽管Kubernetes不会被AI取代,但其未来竞争力在于有效管理AI工作负载,成为AI基础设施的核心。

Kubernetes在AI浪潮中的焦虑与重生

云原生
云原生 · 2026-04-03T05:20:28Z
KCD Beijing 2026 分享回顾:从 Device Plugin 到 DRA——GPU 调度范式升级与 HAMi-DRA 实践

KCD Beijing 2026 是大型 Kubernetes 社区大会,HAMi 社区介绍了 GPU 调度的 DRA 模型,强调 GPU 从“设备”转变为“资源对象”。DRA 提升了资源建模能力,但用户体验有所下降。HAMi-DRA 通过自动化迁移简化用户操作,提高了 Pod 创建速度和可观测性,推动了 AI 基础设施的发展。

KCD Beijing 2026 分享回顾:从 Device Plugin 到 DRA——GPU 调度范式升级与 HAMi-DRA 实践

dotNET跨平台
dotNET跨平台 · 2026-04-02T00:03:34Z

美光计划将游戏GPU的GDDR显存进行堆叠,以满足AI数据中心对高内存的需求。这可能导致显存供应紧张和价格上涨。尽管GDDR内存性能低于HBM3,但堆叠后容量更大,AI行业愿意采用。这一变化可能会推高游戏显卡的价格。

美光探索将游戏GPU的GDDR显存堆叠起来组成大容量内存供应给AI数据中心

蓝点网
蓝点网 · 2026-04-01T01:00:17Z
密瓜智能亮相 KubeCon EU 2026:从展台、演讲到主论坛 Demo,HAMi 进入 AI 基础设施核心视野

KubeCon EU 2026 结束,密瓜智能的 HAMi 项目展示了 GPU 共享与调度,强调 Kubernetes 在 AI 工作负载中的重要性,推动全球对 AI 基础设施的关注。

密瓜智能亮相 KubeCon EU 2026:从展台、演讲到主论坛 Demo,HAMi 进入 AI 基础设施核心视野

dotNET跨平台
dotNET跨平台 · 2026-03-31T23:57:29Z
“杭州六小龙”第一股来了!浙大校友创业,年入8亿冲刺IPO

群核科技已通过港交所上市聆讯,成为“杭州六小龙”中首家上市企业。成立于2011年,专注于GPU集群和人工智能,预计2025年营收达8.2亿元,毛利率82.2%。公司计划利用IPO资金拓展国际市场,提升产品功能。

“杭州六小龙”第一股来了!浙大校友创业,年入8亿冲刺IPO

量子位
量子位 · 2026-03-30T08:56:40Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码