💡
原文英文,约1800词,阅读约需7分钟。
📝
内容提要
在八月底,AMD与TensorWave合作,计划在9月16日的媒体技术日展示MAX在MI355上的性能。Modular团队凭借多年技术积累,成功实现高效的AI硬件启用,并在演示中超越了AMD的优化版本,展示了卓越的性能和可移植性。
🎯
关键要点
- AMD与TensorWave合作,计划在9月16日的媒体技术日展示MAX在MI355上的性能。
- Modular团队在短短两周内成功实现了MI355的高效AI硬件启用。
- 现代AI软件生态系统碎片化,导致AI硬件启用困难。
- Modular软件栈设计为可移植性,支持快速适应新硬件架构。
- MI355的新特性包括FP32到BF16的转换指令和更大的张量核心瓦片大小。
- 在没有硬件的情况下,Modular团队提前进行代码生成测试。
- 第一天成功登录MI355并运行了MAX,初步验证了系统的可用性。
- 第一周的工作集中在优化matmul实现,取得了显著的性能提升。
- 第二周继续优化并准备演示,确保能够展示实时基准结果。
- MAX在多个工作负载中超越了AMD优化的vLLM分支,性能提升高达2.2倍。
- 整个MI355的启用过程仅由两名工程师在正常工作时间内完成,体现了优秀架构的效率。
- Modular的使命是快速、可移植和通用的AI硬件启用,持续扩展MI355支持。
➡️