BriefGPT - AI 论文速递 ·

通过令牌扩展的 Transformer 通用高效训练

💡 原文中文，约1600字，阅读约需4分钟。

📝

内容提要

本文提出了一种优化视觉变压器（ViT）模型的压缩框架，显著降低了训练成本和计算复杂度。通过稠密特征提取和局部-全局令牌合并等方法，提高了推理吞吐量并缩短了训练时间。同时，介绍了硬件高效的标记修剪框架和令牌传播控制器等改进技术，进一步提升了模型的准确性和效率。

🎯

❓

优化视觉变压器（ViT）模型的压缩框架是一种旨在降低训练成本和计算复杂度的技术，采用稠密特征提取和局部-全局令牌合并等方法。

通过稠密特征提取和局部-全局令牌合并等方法，该框架显著提高了推理吞吐量并缩短了训练时间。

在多个模型上，该技术实现了至多2倍的FLOPS减少和1.8倍的推理吞吐量提升。

硬件高效的标记修剪框架旨在优化模型的准确性和效率，特别是在嵌入式系统上。

令牌传播控制器通过考虑令牌分布和引入平滑机制来提高令牌利用率和模型稳定性。

该框架的训练时间比现有方法节省了两个数量级。

🏷️