💡
原文中文,约3000字,阅读约需8分钟。
📝
内容提要
AI大模型已超越人类水平,Center for AI Safety与Scale AI联合推出新基准HLE(人类的最后考试),包含3000个高难度问题,旨在评估模型能力。目前模型在HLE上的表现不佳,准确率低于10%。该基准强调多模态问题,需高水平专业知识,未来可能推动模型性能提升。
🎯
关键要点
- AI大模型在多个任务上超越人类水平,进入与AI共生的时代。
- 现有基准无法跟上AI发展的速度,MMLU基准的准确度已超过90%。
- Center for AI Safety与Scale AI联合推出新基准HLE,旨在评估模型能力。
- HLE包含3000个高难度问题,涉及数学、人文科学和自然科学等多个学科。
- HLE问题主要为多项选择题和简单问答题,答案明确且易于验证。
- HLE基准问题由全球近1000名专家贡献,确保问题质量和专业性。
- HLE包含精确匹配问题和多项选择题,10%的问题需要理解文本和图像。
- 为吸引高质量投稿,HLE设立50万美元奖金池,鼓励专家参与。
- 当前SOTA模型在HLE上的表现不佳,准确率低于10%。
- 模型的低准确度部分由于数据集设计,旨在过滤掉现有模型能回答的问题。
- 模型的校准误差较大,常以高置信度提供错误答案,无法识别能力范围。
- 未来模型需提升准确度和计算优化,以提高推理能力。
- 预计到2025年底,模型在HLE上的准确度可能超过50%。
- HLE测试结构化学术问题,不代表模型具备自主研究能力或通用人工智能。
➡️