小红花·文摘

本研究探讨了计算最佳规模是否依赖于知识与推理技能，发现不同技能的规模规律显著不同，数据集选择和模型参数的影响可达50%。该研究为大规模语言模型的开发提供了新见解。

Optimal Scaling of Computational Skills: Knowledge vs Reasoning

BriefGPT - AI 论文速递 ·

本文研究了大型语言模型（LLM）在数学推理中的能力，分析其推理技能及与人类的异同。通过对比实验，发现LLM在识别错误答案及其背后误解方面存在困难。研究提出了ConceptMath基准，以评估LLM的概念级数学推理能力，并指出现有模型在不同数学概念上的表现差异，提出微调策略以提升其能力。

通过结合教育课程评估语言模型的数学推理能力

BriefGPT - AI 论文速递 ·

大型语言模型在竞争环境中展示了高级推理技能，需要评估环境来探测战略推理、竞争动态场景中的长期规划。AucArena是一个评估LLMs的新型模拟环境，在竞拍中证明了LLMs展示了参与竞拍所需的许多技能。个体LLMs的能力存在变异性，即使是最先进的模型（GPT-4）有时也会被启发式基准线和人类代理超越，这突显了LLM代理设计中进一步提高和模拟环境的重要作用。

评估语言模型代理的方法与谈判

BriefGPT - AI 论文速递 ·

本文研究了大型语言模型（LLMs）的能力，特别关注于推进链式思维提示的理论理解。通过引入一个适用于自然语言生成的两级分层图模型，研究者们建立了一个具有吸引力的几何收敛率，用于衡量LLMs生成的思维链条与真实语言起源的思维链条之间的相似度。这些发现为LLMs能够产生正确的思维序列提供了理论上的证明，并解释了在需要推理技能的任务中性能提升的原因。

思绪之线揭示混沌环境

BriefGPT - AI 论文速递 ·

本文研究了大型语言模型（LLMs）的能力，特别关注于推进链式思维提示的理论理解。通过引入一个适用于自然语言生成的两级分层图模型，建立了一个具有吸引力的几何收敛率，用于衡量 LLMs 生成的思维链条与真实语言起源的思维链条之间的相似度。这些发现为 LLMs 能够产生正确的思维序列提供了理论上的证明，解释了在需要推理技能的任务中性能提升的原因。

通过知识蒸馏进行的隐含推理链条

BriefGPT - AI 论文速递 ·

该文介绍了大型语言模型（LLMs）在竞争环境中展示高级推理技能的能力，并介绍了评估LLMs的新型模拟环境AucArena。研究发现，LLMs可以展示参与竞拍所需的许多技能，但个体能力存在变异性。进一步提高LLM代理设计和模拟环境在测试和改进代理体系结构中的作用非常重要。

将你的资金投到你的口中：在拍卖竞技场中评估 LLM 代理的战略规划与执行

BriefGPT - AI 论文速递 ·