针对现代大型语言模型的数据污染检测:局限性、不一致性和挑战
💡
原文中文,约500字,阅读约需1分钟。
📝
内容提要
该文章介绍了一种用于检测大型语言模型中数据污染的方法。通过创建多个扰动版本的数据集实例,并设计一个测验格式,可以判断模型是否能够准确地识别原始实例。作者通过评估两种最先进的语言模型在七个数据集上的表现,证明了该方法的有效性。
🎯
关键要点
- 提出了一种用于检测大型语言模型中数据污染的方法,称为数据污染测验。
- 数据污染检测通过多项选择问题构建,创建三个扰动版本的每个数据集实例。
- 扰动版本通过词级扰动和同义词替换,确保语义和句子结构与原始实例相同。
- 测验格式设计为在选择项中包含扰动版本和原始实例。
- 如果LLM在识别原始实例时表现超过随机机会,则标记数据集为被污染。
- 评估涵盖七个数据集及其划分,使用两种最先进的LLMs:GPT-4和GPT-3.5。
- 结果表明,该方法增强了对数据污染的检测,并能在污染信号较弱时提供准确估计。
🏷️
标签
➡️