DeepSeek发布Tile Kernels：用TileLang榨干GPU并打破CUDA垄断

极道 ·

DeepSeek发布Tile Kernels：用TileLang榨干GPU并打破CUDA垄断

💡 原文中文，约2600字，阅读约需7分钟。

📝

内容提要

DeepSeek发布的Tile Kernels通过TileLang优化GPU性能，打破了CUDA的垄断，推动AI工程从模型设计转向系统能力。TileLang简化了GPU开发，支持跨硬件执行，提升了效率。然而，技术进步导致能力差距扩大，顶级团队获得更高效率，而大多数团队难以跟上。这一变化将重塑AI基础设施的竞争格局。

🎯

关键要点

DeepSeek发布的Tile Kernels通过TileLang优化GPU性能，打破了CUDA的垄断。
TileLang简化了GPU开发，支持跨硬件执行，提升了效率。
内核优化逼近硬件极限，但工程门槛提高，导致能力差距扩大。
推理成本成为核心变量，谁能在同等算力下跑出更多token，谁就获得商业优势。
TileLang将GPU kernel开发从复杂实现中抽离，改变了开发模式。
Tile Kernels项目结构围绕LLM计算路径进行模块化拆解，提升了性能。
内核优化要求更高的工程能力，大部分团队难以跟上技术进步。
TileLang的出现削弱了CUDA的生态护城河，推动硬件厂商竞争。
未来的竞争将转向系统工程，整合kernel、调度、内存管理等能力。
Tile Kernels和TileLang结合推动AI工程从模型驱动转向系统驱动，扩大能力差距。

❓

延伸问答

Tile Kernels如何优化GPU性能？

Tile Kernels通过TileLang优化GPU性能，逼近硬件极限，支持跨硬件执行，提升了效率。

TileLang的出现对CUDA生态有什么影响？

TileLang削弱了CUDA的生态护城河，使得硬件选择不再被绑定，推动了硬件厂商之间的竞争。

为什么内核优化会导致能力差距扩大？

内核优化要求更高的工程能力，大部分团队难以跟上技术进步，导致顶级团队获得更高效率。

Tile Kernels如何改变AI工程的竞争格局？

Tile Kernels推动AI工程从模型驱动转向系统驱动，整合kernel、调度和内存管理等能力，提升整体效率。

TileLang如何简化GPU开发？

TileLang将GPU kernel开发从复杂的C++和CUDA实现中抽离，使用Python表达计算逻辑，简化了开发过程。

未来AI基础设施的竞争将如何演变？

未来的竞争将转向系统工程，整合各项能力，谁能高效整合kernel和调度，谁就掌握主动权。

🏷️

继续阅读

便宜好用真香！美国企业把DeepSeek买上了趋势榜第一
Ramp发布的2026年热门软件供应商榜单显示，中国AI公司DeepSeek首次重返增长，企业采用率为0.1%。其成本显著低于Anthropic和Open...
存之有序，治之有矩——Agent 记忆系统的工程实践与演进
本文探讨了Agent记忆系统的工程实践与演进，分析了记忆写入纪律、Prompt Cache冲突、跨模型容量、Embedding迁移及Agent自产Skil...
eBay拒绝游戏驿站560亿美元收购提案；OpenAI收购Tomoro并成立新实体；腾讯音乐完成收购喜马拉雅
OpenAI收购咨询公司Tomoro，成立新合资企业以推动人工智能应用。优步提高对Delivery Hero的收购报价。阳狮集团以22亿美元收购LiveR...
基于220种海洋细菌，科学家用基因组尺度模型重构异养微生物分类体系，挖出8类代谢菌群
研究揭示海洋异养微生物的代谢生态位，打破传统的富营养型与寡营养型二分法，提出8类代谢菌群。通过基因组分析，阐明其生长规律与资源竞争，推动全球碳循环研究，为...
刚刚，姚顺雨现身！公开回应腾讯AI落后了吗？
在腾讯云AI产业应用大会上，姚顺雨与汤道生讨论了AI的未来发展。姚顺雨指出，AI的“下半场”应聚焦于解决实际问题和寻找合适的应用场景。他认为腾讯的丰富产品...
开始在 Amazon Bedrock 上使用 OpenAI GPT-5.5、GPT-5.4 模型和 Codex
OpenAI的GPT-5.5和GPT-5.4模型以及Codex已在Amazon Bedrock平台上线。这些模型专注于代码编写和复杂工作流程，支持开发者通...