本研究探讨了大型语言模型(LLMs)的评估方法,强调标准化评估的重要性。分析23个基准后发现,评估结果受到基准泄漏的影响,导致模型性能评估不可靠。研究提出动态基准以保持知识的及时性,并呼吁人工智能社区共同解决评估挑战,确保模型的可靠性和社会利益。
完成下面两步后,将自动完成登录并继续当前操作。