Monarch Mixer:一个简单的次线性 GEMM 架构
原文中文,约200字,阅读约需1分钟。发表于: 。机器学习模型通过使用 Monarch Mixer(M2)架构,实现了在序列长度和模型维度上的次二次扩展,以达到更长的上下文和更好的性能,并且在非因果伯特模型、ViT 图像分类和因果 GPT 模型三个领域展示了良好的性能。
该文介绍了一种使用M2架构的机器学习模型,能够在序列长度和模型维度上进行扩展,从而实现更长的上下文和更好的性能。该模型在非因果伯特模型、ViT图像分类和因果GPT模型三个领域展现出良好的性能。