迷途小书童 ·

PyTorch宣布去CUDA，Triton时代来临?

💡 原文中文，约1300字，阅读约需3分钟。

📝

内容提要

PyTorch宣布实现了100%基于OpenAI的Triton语言推理的大语言模型，拓宽AI应用的硬件选择范围。Triton提供了更高级的抽象层，简化编写高性能GPU程序。测试数据显示，基于Triton的模型推理速度约为CUDA版本的76%到78%。Triton可能挑战NVIDIA在AI芯片市场的优势，但要打破CUDA的地位还需努力。

🎯

关键要点

PyTorch宣布实现100%基于OpenAI的Triton语言推理的大语言模型。
Triton是一种专门用于GPU编程的编程语言，旨在打破NVIDIA CUDA的垄断。
使用Triton后，模型可以在多种类型的GPU上运行，拓宽了硬件选择范围。
Triton提供更高级的抽象层，使编写高性能GPU程序变得简单。
基于Triton的模型推理速度在H100上为CUDA的76%到78%，在A100上为62%到82%。
Triton的性能尚未完全赶上CUDA，但表现令人惊喜。
性能差异主要源于Triton的矩阵乘法内核和Flash Attention内核的速度较慢。
PyTorch团队正在探索优化方案，如新的FlexAttention技术。
Triton的出现可能重塑AI芯片市场的格局，挑战NVIDIA的绝对优势。
CUDA仍保持性能优势，Triton要真正挑战CUDA还有很长的路要走。

❓

延伸问答

Triton是什么，它的主要功能是什么？

Triton是一种由OpenAI开发的编程语言，专门用于GPU编程，旨在打破NVIDIA CUDA的垄断，简化高性能GPU程序的编写。

使用Triton编写的模型在性能上与CUDA相比如何？

基于Triton的模型推理速度在H100上为CUDA的76%到78%，在A100上为62%到82%，虽然不及CUDA，但表现令人惊喜。

Triton如何影响AI芯片市场的格局？

Triton的出现可能挑战NVIDIA在AI芯片市场的绝对优势，打破CUDA的垄断，带来新的硬件选择。

Triton的性能差异主要来源于哪些方面？

性能差异主要源于Triton的矩阵乘法内核和Flash Attention内核的速度较慢，分别比CUDA慢1.2到1.4倍和1.6倍。

PyTorch团队在优化Triton性能方面有哪些探索？

PyTorch团队正在探索新的优化方案，如FlexAttention技术，以提高处理长上下文和解码问题的性能。

Triton的出现对开发者有什么好处？

Triton提供更高级的抽象层，使得编写高性能GPU程序变得简单，降低了开发者的技术门槛。

🏷️

继续阅读

[显示BUG没重置] Codex已重置本周使用限额原因似乎与部分模型出现的故障有关
本周，OpenAI的Codex、ChatGPT和API出现故障，导致用户使用受限。Codex团队已重置所有付费用户的使用限额，并延长7天。故障原因与部分模...
刚刚，Windows「梦中神机」来了，把你的 PC 变成 Agent 工位
微软与OpenAI的合作关系逐渐疏远。在Build 2026发布会上，微软展示了自研的MAI模型系列，涵盖推理、代码、图像和语音等领域，强调多模型选择的重...
一夜之间，ChatGPT 变成了第二个 Claude
OpenAI计划将Codex整合进ChatGPT，以提升其在企业工作中的应用。Codex将支持数据分析、市场营销等多种任务，用户可通过统一界面操作。目前C...
腾讯云与Soniox建立战略合作伙伴关系，共同助力全球多语言语音AI应用发展
腾讯云与Soniox达成战略合作，结合Soniox的语音转文本技术与腾讯云的实时通信基础设施，支持全球200多个国家的多语言语音AI应用，提升用户体验，适...
有开发者的Codex Team订阅也从每周重置变成每月重置但可能是系统故障
OpenAI的Codex Team订阅用户发现使用配额从每周重置变为每月重置，可能是系统故障。免费版用户的算力受到限制，批量注册账号的收益有限。用户可以登...
早报｜微软发布Windows「梦中神机」/腾讯云DeepSeek-V4最高降价97.5%/徕卡相机或被中国资本收购
微软在Build 2026大会上发布了七款自研AI模型，涵盖推理、代码、图像和语音等领域，并推出了强大算力的开发者设备“梦中神机”。OpenAI扩展Cod...