小红花·文摘 - 小红花技术领袖俱乐部

本研究提出生成基准（GBCV）方法，评估大语言模型（LLMs）生成测试用例的能力。结果显示，GPT-4o在复杂程序结构上表现优异，但在简单条件下的边界值检测中，各模型均表现良好，而在算术计算方面则面临挑战。研究揭示了LLMs的优势与局限性。

评估大语言模型测试用例生成能力的系统方法

BriefGPT - AI 论文速递 ·

本研究探讨了大型语言模型（LLMs）在数学推理和算术计算中的表现，发现其在符号复杂度和数字系统上存在挑战。尽管GPT-4表现最佳，但整体性能仍不稳健。研究强调了特定机制和训练对提升LLMs数学能力的重要性。

数值精度如何影响大型语言模型的数学推理能力

BriefGPT - AI 论文速递 ·

该研究调查了语言模型在预测和问题解决能力方面的应用，以及在算术计算和内部信息处理方面的推广能力。研究结果支持了语言模型在数值空间中进行计算的假设。

语言模型对数字的理解，至少在某种程度上

BriefGPT - AI 论文速递 ·

该研究调查了语言模型在预测和问题解决能力方面的应用，以及在算术计算和内部信息处理方面的推广能力。研究结果支持了语言模型在数值空间中进行计算的假设。

ArthModel: 提升大型语言模型的算术技能

BriefGPT - AI 论文速递 ·