小红花·文摘

本研究探讨了大型语言模型（LLMs）的评估方法，强调标准化评估的重要性。分析23个基准后发现，评估结果受到基准泄漏的影响，导致模型性能评估不可靠。研究提出动态基准以保持知识的及时性，并呼吁人工智能社区共同解决评估挑战，确保模型的可靠性和社会利益。