小红花·文摘

首页
广场
排行榜^🏆
直播
FAQ

本文提出了一种名为注意残差（AttnRes）的方法，以改善大规模语言模型中的残差连接。传统方法使用固定权重累积层输出，导致隐藏状态随深度增长而失控。AttnRes通过软最大注意力聚合前层输出，使每层能够根据输入选择性聚合先前表示。为降低大规模模型训练的内存和通信开销，提出了块级注意残差（Block AttnRes），通过分块处理层来减少内存占用，同时保持性能提升。实验表明，AttnRes在不同模型规模中有效改善了输出均匀性和下游任务表现。