小红花·文摘

人类最后考试（HLE）是评估现代AI系统推理和知识能力的基准，包含2500多个专家级问题，涵盖多个学科。尽管HLE被认为有用，但专家意见分歧，部分人认为其过于学术化，无法真实反映AI在实际生活中的表现。HLE旨在克服以往测试的局限性，尽管一些问题存在错误。总体来看，HLE被视为识别最佳AI模型的重要工具。