压缩结构张量代数

通过自动数据布局压缩、多面体分析和仿射代码生成等技术，本论文介绍了 DASTAC 框架，该框架将张量的高级结构传播到低级代码生成中，通过自动检测最佳数据布局、强烈依赖多面体优化、进一步优化和通过 MLIR 实现并行化，我们的方法既降低内存占用又比最先进的稀疏张量编译器 TACO 和结构张量代数编译器 StructTensor 提供了 1 到 2 个数量级的加速。

该论文介绍了提高深度神经网络加速效果的方法，包括整合不同层面的改进技术和调整参数。研究发现模型大小、准确性和推理时间之间没有必然关联，压缩技术的加速效果受硬件平台影响。编译器自动调优可能改变最佳算法的选择，因此需要协同设计来优化加速深度学习的解决方案。