大型语言模型可能是死记硬背的学习者

📝

内容提要

本研究探讨了在多项选择题基准测试中,大型语言模型(LLMs)的评估因基准污染而受到影响。我们提出TrinEval这一新颖评估框架,通过将多项选择题重构为替代的三位格式,区分真实能力获取与表面记忆,发现常见LLMs平均死记硬背了20.5%的知识点,从而为LLMs的评估提供了新的视角。

🏷️

标签

➡️

继续阅读