使用组合测试设计解决HumanEval中的数据泄漏问题

📝

内容提要

本研究针对当前测试基准中存在的数据泄漏问题,提出了一个新的基准构建方法,通过组合测试设计生成模板任务以创建不同的具体任务,从而降低数据泄漏的影响。研究的关键发现是,使用模板任务的方法不仅增强了评估的公平性,还为评估语言模型性能提供了更可靠的框架。

➡️

继续阅读