研究发现,简单的“空模型”在大型语言模型的基准测试中表现良好,暴露了这些测试设计中的问题。作者质疑这些测试是否真正评估了AI系统的能力,强调需要更严谨的基准来准确评估LLM性能,以确保AI的负责任发展。
完成下面两步后,将自动完成登录并继续当前操作。