从低熵和动态稀疏的视角重新审视变换器

📝

内容提要

本研究探讨了变换器模型在压缩性能评估中的关键问题,尤其是在目标分布未知的情况下如何衡量模型的压缩效果。作者发现变换器倾向于偏好学习低熵分布,并且这种偏好在模型规模增大时更加明显,导致与目标分布的不完全对齐。此外,研究还指出FFN模块在这种偏好中的关键作用,并揭示了动态稀疏性对压缩过程的重要影响。

➡️

继续阅读