灵感来自类人素描的高效扩散变换器框架EDT

💡 原文中文,约500字,阅读约需2分钟。
📝

内容提要

本文介绍了DiT-MoE,一种优化推理的稀疏扩散Transformer,通过共享专家路由和均衡损失来减少冗余并捕捉知识。研究表明,随着层数加深,专家选择对空间位置的偏好逐渐均匀。DiT-MoE在图像生成中表现优异,推理计算负担更轻,获得了新的SoTA FID-50K评分1.80。

🎯

关键要点

  • DiT-MoE是一种优化推理的稀疏扩散Transformer。
  • DiT-MoE通过共享专家路由和均衡损失来减少冗余并捕捉知识。
  • 专家选择对空间位置和去噪时间步长有偏好,对不同类别条件信息不敏感。
  • 随着MoE层的加深,专家选择逐渐从特定空间位置转移到分散性和平衡性。
  • 专家专业化倾向于在早期时间步之后逐渐变得均匀。
  • DiT-MoE在推理过程中需要更少的计算负载,性能与密集网络相当。
  • 在512×512分辨率下,DiT-MoE的16.5B参数模型取得了新的SoTA FID-50K评分1.80。
➡️

继续阅读