现代大语言模型中数据污染问题研究
我们通过检测数据污染并提出 “Testset Slot Guessing” 方法,发现商业化的 LLM 在评估基准中有明显的性能改进,并呼吁在该领域使用更强大的评估方法和基准。
该文章介绍了一种用于检测大型语言模型中数据污染的方法,通过构建多项选择问题并创建扰动版本的数据集实例,来评估模型的性能。通过词级扰动和同义词替换,确保扰动版本与原始实例的语义和句子结构相同。通过评估两种最先进的语言模型,结果表明该方法可以准确检测数据污染并提供估计。
我们通过检测数据污染并提出 “Testset Slot Guessing” 方法,发现商业化的 LLM 在评估基准中有明显的性能改进,并呼吁在该领域使用更强大的评估方法和基准。
该文章介绍了一种用于检测大型语言模型中数据污染的方法,通过构建多项选择问题并创建扰动版本的数据集实例,来评估模型的性能。通过词级扰动和同义词替换,确保扰动版本与原始实例的语义和句子结构相同。通过评估两种最先进的语言模型,结果表明该方法可以准确检测数据污染并提供估计。