本文提出了变色龙基准过拟合检测器(C-BOD),揭示大型语言模型(LLMs)在基准测试中对特定数据集表面线索的过度依赖。研究发现,模型在轻微扰动下表现平均下降2.15%,引发对模型鲁棒性和泛化能力的关注。
完成下面两步后,将自动完成登录并继续当前操作。