小红花·文摘

本文提出了变色龙基准过拟合检测器（C-BOD），揭示大型语言模型（LLMs）在基准测试中对特定数据集表面线索的过度依赖。研究发现，模型在轻微扰动下表现平均下降2.15%，引发对模型鲁棒性和泛化能力的关注。