灵感来自类人素描的高效扩散变换器框架EDT
原文中文,约500字,阅读约需2分钟。发表于: 。本研究针对基于变换器的扩散预测模型在计算资源上的需求过高这一问题,提出了高效扩散变换器(EDT)框架。该框架通过轻量化设计的扩散模型架构和模仿人类素描的训练无关的注意力调节矩阵,显著降低了训练和推理成本,同时在图像合成性能上超越现有模型,显示出显著的整体提升。
本文介绍了DiT-MoE,一种优化推理的稀疏扩散Transformer,通过共享专家路由和均衡损失来减少冗余并捕捉知识。研究表明,随着层数加深,专家选择对空间位置的偏好逐渐均匀。DiT-MoE在图像生成中表现优异,推理计算负担更轻,获得了新的SoTA FID-50K评分1.80。