推理时去污:重复使用泄露的基准测试用于大型语言模型评估

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

我们提出了推理时间去污染(ITD)方法,通过检测和重写泄露样本而不改变难度,降低记忆泄露基准测试导致的性能夸大影响。实验结果表明,ITD方法在GSM8K上可以降低22.9%的夸大准确性,在MMLU上可以降低19.0%。希望ITD方法能为大型语言模型提供更真实的评估结果。

🎯

关键要点

  • 提出了推理时间去污染(ITD)方法。
  • ITD方法通过检测和重写泄露样本来降低性能夸大影响。
  • ITD方法在GSM8K上降低了22.9%的夸大准确性。
  • ITD方法在MMLU上降低了19.0%的夸大准确性。
  • 在MMLU上,使用ITD方法可以使Phi3和Mistral的结果分别降低6.7%和3.6%。
  • 希望ITD方法能为大型语言模型提供更真实的评估结果。
➡️

继续阅读