CLOVER:一个涵盖、长上下文和验证的测试用例生成基准

📝

内容提要

本研究解决了软件测试中生成测试用例的常规难题,提出了CLOVER基准以评估模型在特定条件下生成和补全测试用例的能力。通过不同的上下文长度分析845个问题,发现虽然模型在短上下文下性能相近,但在16k上下文时表现出显著差异,所有模型在复杂任务上得分均低于35%。

🏷️

标签

➡️

继续阅读