💡 原文英文,约700词,阅读约需3分钟。
📝

内容提要

在NVIDIA GTC展会上,我们展示了基于MAX框架的FLUX图像生成和Mojo编程的CUTLASS内核移植。DeepSeek V3在云端运行,提供实时指标,欢迎到3004号展位交流。

🎯

关键要点

  • 在NVIDIA GTC展会上展示了基于MAX框架的FLUX图像生成和Mojo编程的CUTLASS内核移植。
  • 在3004号展位进行实时演示,使用NVIDIA DGX Spark运行FLUX.2-klein扩散模型。
  • MAX框架处理整个管道,包括图形编译、内核调度和服务,使用Mojo编写。
  • 演示了将NVIDIA的CUTLASS Blackwell conv2d内核从CUDA C++移植到Mojo的过程。
  • 移植结果为130.7 TFLOPS,使用约770行Mojo代码,相比于CUTLASS的3000行大幅减少。
  • Mojo的结构化内核架构使得重用现有的矩阵乘法基础设施达90%。
  • DeepSeek V3在云端运行,提供实时指标和优化的GPU利用率。
  • Modular Cloud是一个完全托管的端点,优化了MAX和Mojo内核的端到端性能。
  • 欢迎企业团队在展位交流,讨论评估专用端点的需求。
  • 展位#3004全周开放,提供编译、内核优化和推理扩展的深入讨论。
➡️

继续阅读