从架构特性到生态建设,沐曦董兆华深度剖析国产 GPU 上的 TVM 应用实践
💡
原文中文,约5200字,阅读约需13分钟。
📝
内容提要
7月5日,HyperAI超神经主办的Meet AI Compiler技术沙龙成功举办,汇聚了AI编译领域专家。AMD、沐曦集成电路及字节跳动的代表分享了GPU性能优化、国产GPU应用及分布式通信的创新,展示了AI编译技术的最新进展。
🎯
关键要点
- 7月5日,HyperAI超神经主办的Meet AI Compiler技术沙龙成功举办,汇聚了AI编译领域专家。
- 活动中,AMD、沐曦集成电路及字节跳动的代表分享了GPU性能优化、国产GPU应用及分布式通信的创新。
- AMD的张宁架构师介绍了Triton编译器在AMD GPU平台的性能优化。
- 沐曦集成电路的董兆华总监分享了国产GPU上TVM应用的实战经验。
- 字节跳动的郑思泽研究员揭示了Triton-distributed在分布式通信中的应用。
- 北京大学的王磊博士介绍了TileLang,重新定义算子开发的效率边界。
- 沐曦GPU产品覆盖AI训练推理到科学计算,支持多种编程接口。
- 沐曦团队构建了完整的TVM适配方案,实现从模型定义到硬件执行的全流程优化。
- 沐曦GPU采用GPGPU架构,支持全流程优化,兼顾开发效率与硬件性能。
- 沐曦GPU在TVM层面支持subdevice,自动选择对应的适配方案。
- TileLang专注于张量计算的精细化优化,支持MACA target的使用。
- 行业面临框架和算法变化快、硬件架构演进、编程范式变化等挑战。
- 沐曦计划开放框架及算子库核心组件,促进编译器工具链的迭代优化。
- 沐曦注重生态共建,搭建技术社区论坛,举办主题竞赛,提供Benchmark。
➡️