AIxiv专栏促进学术交流,报道超过2000篇内容。研究表明,模型量化会降低大语言模型的数学推理能力,影响其在基本算术任务中的表现,因此需要保持足够的精度以解决复杂问题。
本研究提出了两种数字token损失函数,以改善语言模型在数字生成和数量推理方面的不足,尤其是在算术任务中。这些损失函数通过度量生成的数字与真实值之间的距离,显著提高了模型的数字准确性,特别是在标准T5模型上表现突出。
本文研究了解码器Transformer模型在不同位置编码下的长度泛化能力,发现NoPE方法表现优于其他方法,且无需额外计算。相对位置嵌入在简单任务中有效,但在乘法任务中失败。通过引入训练集引导和注意力偏置校准,模型在算术任务上实现了更好的长度泛化。适当的数据格式和位置编码组合显著提升了Transformer在未知长度输入上的表现。
研究表明,通过改进数字嵌入方法,transformers 在算术任务中的表现显著提升,模型在100位加法问题上达到了99%的准确率。此外,研究探讨了大型语言模型在理解数字和数学推理方面的能力,并提出了有效的训练策略以提高性能。
本文提出了一个理论框架来研究自回归的下一个标记预测器,证明了即使是简单的模型也能有效地近似于图灵机计算的任何函数。同时,引入了一个新的复杂度度量方法——长度复杂度,并分析了长度复杂度与其他复杂度概念之间的相互关系。最后,实验证明,简单的下一个标记预测器在文本生成和算术任务中显示出非平凡的性能,语言模型的强大能力很大程度上归功于自回归的下一个标记训练方案。
完成下面两步后,将自动完成登录并继续当前操作。