小红花·文摘

该研究提出了一种新方法，通过从Codeforces收集编程问题及其“黑客”案例，生成错误诱导测试案例。研究提供了一个包含288,617个测试的综合数据集，旨在提升大语言模型生成软件的测试效果。