本研究质疑大型语言模型(LLM)在语言、知识和推理基准上的表现是否真正反映其通用认知能力,指出现有评估方法的局限性,建议不应仅依赖基准性能来评估LLM的认知能力。
完成下面两步后,将自动完成登录并继续当前操作。