小红花·文摘

研究发现，简单的“空模型”在大型语言模型的基准测试中表现良好，暴露了这些测试设计中的问题。作者质疑这些测试是否真正评估了AI系统的能力，强调需要更严谨的基准来准确评估LLM性能，以确保AI的负责任发展。