量子位 ·

英伟达自毁CUDA门槛！15行Python写GPU内核，性能匹敌200行C++

💡 原文中文，约2200字，阅读约需6分钟。

📝

内容提要

英伟达发布CUDA 13.1，推出CUDA Tile编程模型，使开发者仅需15行Python代码即可实现相当于200行C++的GPU性能。这一变化降低了GPU编程的门槛，吸引更多数据科学家参与，但也引发了对CUDA“护城河”被削弱的担忧。

🎯

🏷️

英伟达放弃GPU上LPU：新推理芯片被曝Groq即买即用，OpenAI第一个吃螃蟹
英伟达将在GTC大会上推出新推理芯片，首位客户为OpenAI。该芯片基于Groq团队的LPU架构，旨在提升推理效率，以应对市场需求变化。推理市场正在重塑，...
苹果发布两款新 MacBook：AI 性能破纪录，最强显示器卖两万五
苹果推出了M5 Pro/Max款MacBook Pro，性能显著提升，M5 Pro配备15核CPU和16核GPU，M5 Max则为18核CPU和32核GP...
大模型GPU显存算力需求计算
博客自2016年成立以来，逐步接入CDN并添加功能，如音乐墙、动态和时光，至2021年增加了站点地图。
苹果推出搭载M5 Pro和M5 Max芯片的MacBook Pro 提供更加强大的性能
苹果推出全新MacBook Pro，搭载M5 Pro和M5 Max芯片，支持最高128GB内存和40核心GPU，专为专业创作者设计。预售将于3月4日开始，...
苹果发布搭载M5芯片的MacBook Air 存储翻倍升级并显著提升AI性能
苹果推出新款 MacBook Air，搭载 M5 芯片，标配 16GB 内存和 512GB 固态硬盘，支持光线追踪，起售价 1099 美元，续航最高达 18 小时。
数字海洋的代理推理云如何通过NVIDIA GPU实现Workato推理成本降低67%
在预填充阶段，模型处理输入提示并为每个标记建立内部记忆，计算量大，且随着输入序列长度平方增长。对于长上下文任务，预填充可能占总推理成本的大部分，因为模型需...