小红花·文摘

该研究使用PCA方法分析了ALBERT语言模型系列，发现不同大小、训练和初始化的模型一致地使用变化最大的轴来表示数值概念的排序。这表明语言模型可以理解基本的数学概念，为与定量推理交叉的NLP应用开辟了新的发展路径。

通过强化学习学习高效的递归数字系统

BriefGPT - AI 论文速递 ·

数字标准化的位置信息描述

BriefGPT - AI 论文速递 ·

探索语言模型中的内部数理能力：ALBERT 的研究案例

BriefGPT - AI 论文速递 ·

大型语言模型在定量推理和知识基准测试中表现出色，但许多基准测试由于LLMs得分过高而失去效用。引入了一个新的基准测试ARB，包含数学、物理、生物、化学和法律领域的问题，更具挑战性。评估了GPT-4和Claude在ARB上的表现，发现得分远低于50％。引入了基于评分表的评估方法，允许GPT-4评分自己的中间推理步骤。对ARB的符号子集进行了人工评估，发现与GPT-4评分存在一致性。

CLEVA：中文语言模型评估平台

BriefGPT - AI 论文速递 ·