关于 Transformer 模型的长程能力
原文中文,约400字,阅读约需1分钟。发表于: 。通过对 Transformer 架构进行最小的修改,引入长距离任务的归纳偏差、位置性等重要特性以提升性能,并为成功捕捉长距离依赖关系确定了关键属性。
本文介绍了Lite Transformer,一种高效的移动NLP架构,通过使用Long-Short Range Attention进行本地上下文建模和长距离关系建模的特化,优于vanilla transformer在机器翻译、摘要生成和语言建模三个方面。Lite Transformer在WMT'14英法任务上也优于Transformer。修剪和量化操作可以将模型体积压缩18.2倍,而在500M MACs的计算量下,Lite Transformer的困惑度比Transformer低1.8。