小红花·文摘

本文研究了Transformer模型的前馈层，发现Pre-LN相较于Post-LN更稳定，有效防止不稳定训练。探讨了Transformer在处理全局与上下文信息时的权衡及长篇上下文推理中的位置偏差问题。通过分析残差流，增强了模型的可解释性，并提出了新的多层稀疏自编码器方法，以深入理解信息传播。

分析大规模模型残差流中的稳定区域

BriefGPT - AI 论文速递 ·

深入解析随机 Transformer [译]

宝玉的分享 ·

本文介绍了可扩展的神经网络内核(SNNK)及其应用，SNNK能够近似表示正常前馈层(FFLs)，但具有更好的计算属性和表达力。通过神经网络捆绑过程，SNNK可以应用于压缩深度神经网络架构，获得额外的压缩收益。作者还介绍了通用随机特征(URFs)机制，用于实例化多种SNNK变体。经过理论分析和实证评估，发现该机制可以将可训练参数的数量减少5倍，同时保持准确性。

Kernel-U-Net 多变量时序预测的层次和对称框架

BriefGPT - AI 论文速递 ·