本研究提出生成基准(GBCV)方法,评估大语言模型(LLMs)生成测试用例的能力。结果显示,GPT-4o在复杂程序结构上表现优异,但在简单条件下的边界值检测中,各模型均表现良好,而在算术计算方面则面临挑战。研究揭示了LLMs的优势与局限性。
本研究探讨了大型语言模型(LLMs)在数学推理和算术计算中的表现,发现其在符号复杂度和数字系统上存在挑战。尽管GPT-4表现最佳,但整体性能仍不稳健。研究强调了特定机制和训练对提升LLMs数学能力的重要性。
该研究调查了语言模型在预测和问题解决能力方面的应用,以及在算术计算和内部信息处理方面的推广能力。研究结果支持了语言模型在数值空间中进行计算的假设。
完成下面两步后,将自动完成登录并继续当前操作。