小红花·文摘

GAIA是智能助手的基准测试，对AI研究具有里程碑意义。GAIA提出了一系列真实世界问题，对大多数AI具有挑战性。研究表明，人类回答正确率为92%，而GPT-4仅为15%。GAIA的目标是让任务对人类更加困难。使用GAIA的方法，设计了466个问题，发布了其中300个问题的答案。