推理时去污:重复使用泄露的基准测试用于大型语言模型评估
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
我们提出了推理时间去污染(ITD)方法,通过检测和重写泄露样本而不改变难度,降低记忆泄露基准测试导致的性能夸大影响。实验结果表明,ITD方法在GSM8K上可以降低22.9%的夸大准确性,在MMLU上可以降低19.0%。希望ITD方法能为大型语言模型提供更真实的评估结果。
🎯
关键要点
- 提出了推理时间去污染(ITD)方法。
- ITD方法通过检测和重写泄露样本来降低性能夸大影响。
- ITD方法在GSM8K上降低了22.9%的夸大准确性。
- ITD方法在MMLU上降低了19.0%的夸大准确性。
- 在MMLU上,使用ITD方法可以使Phi3和Mistral的结果分别降低6.7%和3.6%。
- 希望ITD方法能为大型语言模型提供更真实的评估结果。
➡️