小红花·文摘

本研究提出生成基准（GBCV）方法，评估大语言模型（LLMs）生成测试用例的能力。结果显示，GPT-4o在复杂程序结构上表现优异，但在简单条件下的边界值检测中，各模型均表现良好，而在算术计算方面则面临挑战。研究揭示了LLMs的优势与局限性。