Modular:全球最快的统一矩阵乘法
原文英文,约1200词,阅读约需5分钟。发表于: 。The world's fastest unified matrix multiplication
Modular开发了一种新方法来解决AI基础设施中碎片化的点解决方案问题。他们创建了一个“单一真相来源”,允许专家内核作者在架构和用例之间构建单个可组合,可扩展和可移植的代码库。该方法支持快速重用模式和代码,适用于问题的优化子变体,并易于在特殊情况下采用异类硬件功能。Modular的矩阵乘法和其他内核完全支持动态形状,并支持许多现有系统难以处理的其他形式的动态性。Modular方法提供了广泛的操作符通用融合,无需手动编写和维护变体,从而实现了通用性和可扩展性,无需重新编译系统,也无需成为编译器工程师。