小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
英伟达统一内存架构解析:WinPC也拥有苹果M芯片超能力

本文探讨了英伟达的“统一内存”架构,旨在合并CPU和GPU的内存,以提升性能和简化数据传输。文章分析了传统分离架构的局限性,强调统一内存在AI和游戏应用中的优势,同时指出其在内存类型选择和市场策略上的挑战。

英伟达统一内存架构解析:WinPC也拥有苹果M芯片超能力

极道
极道 · 2026-06-07T10:18:00Z

标普道琼斯指数拒绝将SpaceX快速纳入,影响了未盈利的AI公司如OpenAI和Anthropic。谷歌与SpaceX签订合同,每月支付9.2亿美元租用GPU,以满足AI需求。此外,GrapheneOS用户因使用该系统被Yoti上报,引发了隐私讨论。

2026 06 07 HackerNews

介绍 on SuperTechFans
介绍 on SuperTechFans · 2026-06-07T00:19:56Z
谷歌与SpaceX达成3年AI算力合作 谷歌将每月支付9.2亿美元使用孟菲斯C1数据中心

谷歌与SpaceX达成合作,谷歌每月支付9.2亿美元使用SpaceX孟菲斯数据中心的11万台英伟达GPU,合作期为2026年10月至2029年6月。同时,SpaceX还与Anthropic合作,每月支付12.5亿美元使用22万台GPU。此举旨在提升SpaceX的AI业务,尽管其AI部门目前仍面临亏损和市场份额低的问题。

谷歌与SpaceX达成3年AI算力合作 谷歌将每月支付9.2亿美元使用孟菲斯C1数据中心

蓝点网
蓝点网 · 2026-06-06T04:58:00Z

推荐系统中的稀疏特征用于建模用户偏好和物品特性,但存在输入数据长度不一和内存浪费的问题。TorchRec的KeyedJaggedTensor通过合并稀疏特征来提高效率。使用时应注意GPU同步,建议在CPU上构建KeyedJaggedTensor后再转移至GPU,以提升性能。

与TorchRec KeyedJaggedTensor的同步

Lei Mao's Log Book
Lei Mao's Log Book · 2026-06-05T07:00:00Z
字节Agent自主优化GPU内核:挑战英伟达CUDA护城河

字节跳动开发的AI CUDA Agent能够自主优化CUDA代码,其性能超越人类专家40%。该AI通过强化学习快速发现传统编译器无法识别的优化技巧,可能会加剧硬件市场竞争,推动显卡选择不再受限于CUDA。

字节Agent自主优化GPU内核:挑战英伟达CUDA护城河

极道
极道 · 2026-06-03T22:12:00Z
在 Amazon EKS 上使用 NVIDIA GPU Operator 管理自定义 GPU 驱动与 CUDA 工作负载

在Amazon EKS上,使用NVIDIA GPU Operator可以有效管理自定义GPU驱动和CUDA工作负载。EKS通过EC2节点支持GPU工作负载,GPU Operator简化了驱动的安装和管理,确保容器的稳定运行。选择EKS托管节点组可以降低运维负担。同时,结合Kiro和AWS MCP,平台团队能够通过自然语言进行集群巡检和问题排查,从而提升运维效率。

在 Amazon EKS 上使用 NVIDIA GPU Operator 管理自定义 GPU 驱动与 CUDA 工作负载

亚马逊AWS官方博客
亚马逊AWS官方博客 · 2026-06-03T09:22:40Z
跑大模型,最贵的不是 GPU,是这个东西

Llama-70B模型在处理128K token请求时,KV Cache占用429GB显存,成为推理成本的主要因素。通过TurboQuant、PD拆分和LMCache等技术,可以将长上下文推理成本降低4到40倍。这些技术的应用将显著提升效率,改善产品体验,推动LLM的广泛使用。

跑大模型,最贵的不是 GPU,是这个东西

迷途小书童
迷途小书童 · 2026-06-01T13:45:20Z
英特尔首款手持游戏芯片为Arc G3,Acer将率先使用

英特尔推出了首款手持游戏芯片Arc G3,Acer Predator Atlas 8将率先使用。该芯片具备强大的GPU核心,支持新游戏的驱动更新。Atlas 8配备24GB内存和高分辨率屏幕,预计将于10月上市,价格较高。

英特尔首款手持游戏芯片为Arc G3,Acer将率先使用

The Verge
The Verge · 2026-05-28T13:00:00Z
基于 KEDA 的 Kubernetes GPU 自动扩展:构建外部扩展器

KEDA 通过自定义 DaemonSet 解决 Kubernetes 中 GPU 工作负载的自动扩展问题。它利用 NVIDIA 管理库 (NVML) 收集 GPU 指标,如利用率、内存和功耗,并通过 gRPC 提供给 KEDA 操作员,从而实现基于 GPU 性能的自动扩展。这种方法提高了资源利用率,降低了能耗,适用于多种 GPU 工作负载。

基于 KEDA 的 Kubernetes GPU 自动扩展:构建外部扩展器

Cloud Native Computing Foundation
Cloud Native Computing Foundation · 2026-05-27T11:00:00Z

Joseph Stein discusses engineering an enterprise AI-as-a-Service platform within a private cloud data center. He explains how to maximize underutilized GPU pools via multi-namespace scheduling,...

Presentation: Realtime and Batch Processing of GPU Workloads

InfoQ
InfoQ · 2026-05-26T09:08:00Z
悄悄用 Go 重写 AI 基础设施:NVIDIA 的 GPU 云平台为何选择 Go?

NVIDIA 正在用 Go 语言重写其 AI 基础设施,包括 GPU 云函数平台 NVCF、AI 集群运行时 AICR 和分布式存储 AIStore。Go 语言因其高并发处理能力和云原生生态的兼容性,在这些项目中发挥核心作用。NVCF 管理 GPU 加速工作负载,AICR 简化 GPU 集群配置,AIStore 则为 AI 应用提供分布式存储解决方案。

悄悄用 Go 重写 AI 基础设施:NVIDIA 的 GPU 云平台为何选择 Go?

Tony Bai
Tony Bai · 2026-05-25T23:52:42Z
英伟达Vera Rubin直接指挥硬盘:内存变HBM加HBF加SSD三层结构

英伟达计划通过Vera Rubin架构实现GPU直接管理存储,形成HBM、HBF和SSD三层内存结构。这将提升AI服务器性能,减轻CPU负担,闪存厂商将受益。HBF适合存储不常修改的模型参数,未来可能改变内存市场格局。预计2026年开始商业化。

英伟达Vera Rubin直接指挥硬盘:内存变HBM加HBF加SSD三层结构

极道
极道 · 2026-05-25T03:05:00Z
告别 GPU 独占时代:用 HAMi 实现训练推理一体化——博维智慧 GPU 虚拟化实战

博维智慧科技通过Kubernetes和HAMi实现科研实验室GPU资源的高效管理,提升了70%的GPU利用率。该方案支持训练与推理的物理隔离,优化显存使用,降低运维门槛,适用于多种科研场景。

告别 GPU 独占时代:用 HAMi 实现训练推理一体化——博维智慧 GPU 虚拟化实战

dotNET跨平台
dotNET跨平台 · 2026-05-22T00:00:00Z
大模型狂飙的尽头,这家国产 GPU 厂商要把算力放在客厅

摩尔线程推出了家庭AI中枢AICUBE,集成AI计算、图形渲染和存储功能,旨在将云端算力引入家庭。AICUBE支持本地模型运行,解决传统云服务的延迟和隐私问题,展示了全功能GPU在家庭场景中的应用潜力,标志着智能物联网的未来发展方向。

大模型狂飙的尽头,这家国产 GPU 厂商要把算力放在客厅

爱范儿
爱范儿 · 2026-05-21T09:03:49Z
在 Amazon EC2 GPU 实例上部署 NVIDIA NemoClaw — 以 Amazon Bedrock 作为推理后端的生产级参考架构

本文介绍了如何在Amazon EC2 GPU实例上部署NVIDIA NemoClaw,并结合NVIDIA LLM Router实现智能路由。通过混合架构,简单请求由本地vLLM处理,复杂请求则转发至Amazon Bedrock,以优化成本和性能。文章详细描述了部署步骤、架构设计及安全措施,并强调了按请求特征分流的优势,提供了完整的实施参考和命令。

在 Amazon EC2 GPU 实例上部署 NVIDIA NemoClaw — 以 Amazon Bedrock 作为推理后端的生产级参考架构

亚马逊AWS官方博客
亚马逊AWS官方博客 · 2026-05-21T02:38:25Z
你的显卡能跑多少算子?用 55 个检查项,给 PyTorch GPU 环境做一次冒烟测试 - 曦远Code

在Windows上使用RX 6650 XT运行自编译的ROCm和PyTorch时,LLM推理加速不明显,GPU利用率低。通过Python脚本检查PyTorch操作,发现54个操作返回CUDA/HIP张量,但性能未必高。常见问题包括MIOpen编译错误和显存不足,建议使用torch.profiler进行性能分析。

你的显卡能跑多少算子?用 55 个检查项,给 PyTorch GPU 环境做一次冒烟测试 - 曦远Code

程序设计实验室
程序设计实验室 · 2026-05-21T02:09:00Z
国产GPU开始造世界!国内首个全栈具身智能仿真平台来了

摩尔线程发布了MT Lambda,这是首个全栈国产化的具身智能仿真平台。该平台通过仿真训练机器人,实现了Sim-to-Real的验证,整合了物理、渲染和AI引擎,显著提升了机器人训练的效率和真实感,标志着国产GPU在具身智能领域的重大进展。

国产GPU开始造世界!国内首个全栈具身智能仿真平台来了

量子位
量子位 · 2026-05-19T07:03:20Z
国产 GPU 如何丝滑融入 K8s?燧原科技的全栈云原生实践

燧原科技在深圳的HAMi社区Meetup上介绍了国产GPU在Kubernetes生态中的云原生集成方案,涵盖GPU Operator的全生命周期管理、资源调度、设备注入及推理优化。该方案通过标准化的CDI和DRA,提升国产GPU的管理效率与兼容性,解决设备不可见和资源管理复杂等问题,强调与HAMi的协作,推动异构算力的统一调度与优化,提升GPU利用率。

国产 GPU 如何丝滑融入 K8s?燧原科技的全栈云原生实践

dotNET跨平台
dotNET跨平台 · 2026-05-19T00:00:00Z
Anthropic终于不装了:程序员偷偷白嫖Claude两年后,GPU账单开始反杀

Anthropic将于2026年6月15日起拆分Claude的订阅与API计费,独立开发者将面临GPU成本激增。过去两年,AI公司对程序员的补贴掩盖了真实消耗,导致开发者未意识到使用Claude的成本。新规则将实时聊天与自动调用区分开,后者需按次收费。AI行业进入成本现实期,开发者需学会控制AI消耗,以避免账单飙升。

Anthropic终于不装了:程序员偷偷白嫖Claude两年后,GPU账单开始反杀

极道
极道 · 2026-05-18T03:27:00Z
拥抱浪费——你在喝咖啡,GPU 替你烧 token

文章讨论了在人工智能时代,尤其是使用大语言模型时,拥抱“浪费”token的重要性。作者认为,传统的节约观念在资源稀缺时代是合理的,但在AI技术发展后,智力资源几乎无限,应该大胆使用token以提高工作效率。通过不拘泥于节约,利用AI完成更多任务,可以显著提升个人产出。

拥抱浪费——你在喝咖啡,GPU 替你烧 token

王建硕的博客
王建硕的博客 · 2026-05-18T01:06:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码