大规模语言模型的线性化

📝

内容提要

通过线性变压器架构,降低预训练成本,提出了一种代价效益较高的线性变压器预训练方法 SUPRA,并在标准基准测试中取得了竞争性的性能。

🏷️

标签

➡️

继续阅读