小红花·文摘

精度与通用性不可兼得，北大华为理论证明低精度下scaling law难以实现

机器之心 ·

本研究提出了两种数字token损失函数，以改善语言模型在数字生成和数量推理方面的不足，尤其是在算术任务中。这些损失函数通过度量生成的数字与真实值之间的距离，显著提高了模型的数字准确性，特别是在标准T5模型上表现突出。

Regress, Don't Guess — A Regression-like Loss for Number Tokens in Language Models

BriefGPT - AI 论文速递 ·

本文研究了解码器Transformer模型在不同位置编码下的长度泛化能力，发现NoPE方法表现优于其他方法，且无需额外计算。相对位置嵌入在简单任务中有效，但在乘法任务中失败。通过引入训练集引导和注意力偏置校准，模型在算术任务上实现了更好的长度泛化。适当的数据格式和位置编码组合显著提升了Transformer在未知长度输入上的表现。

算术变压器可以在操作数长度和数量上实现长度泛化

BriefGPT - AI 论文速递 ·

研究表明，通过改进数字嵌入方法，transformers 在算术任务中的表现显著提升，模型在100位加法问题上达到了99%的准确率。此外，研究探讨了大型语言模型在理解数字和数学推理方面的能力，并提出了有效的训练策略以提高性能。

如何利用数字嵌入来表示数字？

BriefGPT - AI 论文速递 ·

本文提出了一个理论框架来研究自回归的下一个标记预测器，证明了即使是简单的模型也能有效地近似于图灵机计算的任何函数。同时，引入了一个新的复杂度度量方法——长度复杂度，并分析了长度复杂度与其他复杂度概念之间的相互关系。最后，实验证明，简单的下一个标记预测器在文本生成和算术任务中显示出非平凡的性能，语言模型的强大能力很大程度上归功于自回归的下一个标记训练方案。

自回归下一个单词预测器是通用学习耠

BriefGPT - AI 论文速递 ·