小红花·文摘

本文探讨了变形器（Transformer）体系结构的数学原理及设计决策，分析了其在序列关系逼近中的能力，提出了新的正则化概念，并比较了不同神经网络结构的几何和拓扑特性。同时，研究揭示了变形器在语言模型中的局限性及其信息理论上的普适预测性。

BriefGPT - AI 论文速递 ·

本文介绍了一种用卷积学习输入表示替换变形器的正弦位置嵌入的方法，并详细说明了其在提供长程关系方面的优势和优化特点。该方法在无额外语言模型文本下，在librispeech测试中取得了4.7％和12.9％的字错率。

BriefGPT - AI 论文速递 ·