小红花·文摘

本研究提出了一种基于上下文的测试方法（CAT），旨在克服现有模型测试方法的局限性。通过构建SMART测试系统，利用大型语言模型识别潜在失败，实验证明CAT在识别模型失败方面有效，展现了其作为新测试范式的潜力。