Transformer 过度平滑的真相
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
本研究提出了一种参数化方法,用于控制Transformer模型的频谱,避免过度平滑输入,提高表达能力。该方法在更多层次、更少数据点和受损数据的训练情况下仍然有效。
🎯
关键要点
- Transformer模型在不同领域取得了巨大的成功。
- 近期研究发现,Transformer本质上是低通滤波器,可能导致输入过度平滑,降低表达能力。
- 本研究提出了一种参数化方法,控制Transformer的频谱,避免过度平滑。
- 该方法提高了泛化性能,适用于更多层次、更少数据点和受损数据的训练情况。
🏷️
标签
➡️