量子位 ·

“DeepSeek甚至绕过了CUDA”，论文细节再引热议，工程师灵魂提问：英伟达护城河还在吗？

💡 原文中文，约2200字，阅读约需6分钟。

📝

内容提要

DeepSeek-V3论文引发关注，因其绕过CUDA，利用PTX语言提升硬件效率达10倍。分析指出其重建架构挑战英伟达技术壁垒，尽管PTX复杂，DeepSeek仍与AMD等合作，展示优化能力，可能推动AI自我改进。

🎯

🔎

DeepSeek-V3通过重建架构和使用PTX语言，挑战了英伟达的技术壁垒。这种方法虽然能显著提升硬件效率，但也带来了编程复杂性和维护难度，开发者需权衡技术优势与实际应用的可行性。

尽管DeepSeek绕过了CUDA，直接使用PTX进行优化，但PTX仍是CUDA生态的一部分。这意味着DeepSeek的优化能力并不完全脱离CUDA，而是利用了其底层技术，开发者在选择时需考虑兼容性和移植性问题。

文章提到AI可能朝着编写汇编语言的方向自我改进，这一观点引发了对未来AI发展的思考。如果AI能够有效生成底层代码，将极大提升其在硬件优化方面的能力，值得关注其在实际应用中的表现。

❓

DeepSeek-V3通过绕过CUDA，使用PTX语言进行细粒度优化，提升硬件效率达10倍。

DeepSeek-V3重建架构挑战了英伟达的技术壁垒，可能影响其市场地位。

PTX语言允许细粒度优化，但编写复杂且难以维护，这对开发者提出了更高的要求。

DeepSeek与AMD等公司合作，展示了其优化能力并支持其他硬件生态。

DeepSeek的优化能力可能推动AI自我改进，尤其是在编写汇编语言方面。

DeepSeek-V3在H800 GPU上修改了20个流式多处理器以优化服务器间的通信速度。

🏷️