本研究提出了一种基于上下文的测试方法(CAT),旨在克服现有模型测试方法的局限性。通过构建SMART测试系统,利用大型语言模型识别潜在失败,实验证明CAT在识别模型失败方面有效,展现了其作为新测试范式的潜力。
完成下面两步后,将自动完成登录并继续当前操作。