💡
原文英文,约700词,阅读约需3分钟。
📝
内容提要
在NVIDIA GTC展会上,我们展示了基于MAX框架的FLUX图像生成和Mojo编程的CUTLASS内核移植。DeepSeek V3在云端运行,提供实时指标,欢迎到3004号展位交流。
🎯
关键要点
- 在NVIDIA GTC展会上展示了基于MAX框架的FLUX图像生成和Mojo编程的CUTLASS内核移植。
- 在3004号展位进行实时演示,使用NVIDIA DGX Spark运行FLUX.2-klein扩散模型。
- MAX框架处理整个管道,包括图形编译、内核调度和服务,使用Mojo编写。
- 演示了将NVIDIA的CUTLASS Blackwell conv2d内核从CUDA C++移植到Mojo的过程。
- 移植结果为130.7 TFLOPS,使用约770行Mojo代码,相比于CUTLASS的3000行大幅减少。
- Mojo的结构化内核架构使得重用现有的矩阵乘法基础设施达90%。
- DeepSeek V3在云端运行,提供实时指标和优化的GPU利用率。
- Modular Cloud是一个完全托管的端点,优化了MAX和Mojo内核的端到端性能。
- 欢迎企业团队在展位交流,讨论评估专用端点的需求。
- 展位#3004全周开放,提供编译、内核优化和推理扩展的深入讨论。
➡️