机器之心 ·

数字比你想得更复杂——一文带你了解大模型数字处理能力的方方面面

💡 原文中文，约6500字，阅读约需16分钟。

📝

内容提要

AIxiv专栏关注大语言模型（LLMs）的数字处理能力，研究显示现有模型在复杂数学任务中表现不足，尤其在数字理解方面。北京大学团队提出NUPA基准集，评估模型在不同数字表示和任务上的表现，发现大模型处理复杂数字的准确率较低。作者探讨了提升数字能力的预训练和微调方法，强调基础能力研究对AGI发展的重要性。

🎯

关键要点

AIxiv专栏关注大语言模型（LLMs）的数字处理能力，现有模型在复杂数学任务中表现不足。
北京大学团队提出NUPA基准集，评估模型在不同数字表示和任务上的表现，发现大模型处理复杂数字的准确率较低。
数字理解和处理能力（NUPA）作为独立任务进行研究，强调基础能力研究对AGI发展的重要性。
现有大模型在数字处理方面存在系统性不足，尤其在处理复杂数字和长数字时表现较差。
提升大模型数字能力的三个方向包括预训练阶段的数字相关技术、预训练后的微调，以及思维链技术。
分词器的设计对数字性能有显著影响，较小的词汇表可能更有利于数字处理。
微调可以显著提升模型在特定任务上的表现，但仍未达到理想水平。
思维链技术在数字处理任务中表现出一定优势，但存在显存和时间开销的问题。
作者希望提供的任务和数据集能够为大模型提升数字处理能力提供支持，促进数学领域的表现。

❓

延伸问答

大语言模型在数字处理能力上存在哪些不足？

大语言模型在处理复杂数字和长数字时表现较差，尤其在数字理解和处理能力方面的准确率较低。

NUPA基准集的主要内容是什么？

NUPA基准集包含41个数字理解和处理任务，涵盖整数、浮点数、分数和科学计数法等四种数字表示。

如何提升大模型的数字处理能力？

提升大模型数字处理能力的方法包括预训练阶段的数字相关技术、预训练后的微调和思维链技术。

思维链技术在数字处理任务中的表现如何？

思维链技术在数字处理任务中表现出一定优势，但存在显存和时间开销的问题，且不适用于所有情况。

分词器的设计对数字处理能力有何影响？

分词器的设计显著影响数字性能，较小的词汇表可能更有利于数字处理。

现有大模型在处理长数字时的准确率如何？

现有大模型在处理长数字时的准确率明显下降，尤其在9-14位和15-20位的整数加法任务中表现不佳。

🏷️

继续阅读

Gone in 60 minutes
It should have been the final straw. The new power couple of editorial failur...
20260605的胡言乱语
本文介绍了多种技术工具和方法，包括YAMLResume简历管理工具、终端中的cal命令、Shlink短链接服务、systemd timers替代cron、...
随想 - 20260605
本文介绍了多个技术主题，包括YAML简历管理工具、快速日历命令、MacBook加热技巧、自托管URL缩短器Shlink、将智能手机转为功能手机的体验、sy...
The Sonos Era 100 speaker is down to its lowest price in months
Whether you’re considering starting a Sonos speaker setup, or adding to an ex...
这是你的笔记本电脑……在人工智能时代
在开发者大会上，大型科技公司强调人工智能将改变工作方式。Nvidia的黄仁勋介绍了新型笔记本电脑的使用方式。尽管AI产品不断涌现，人们仍在思考这些变化的必...
Mark Wong: Acknowledged Individuals in the PostgreSQL Release Notes: 2026 Edition
I shared a chart, in 2022, showing where PostgreSQL contributor gifts are mai...