谁是最强“打工AI”?OpenAI亲自测试,结果第一不是自己
内容提要
OpenAI发布了GDPval基准,以评估AI模型在经济价值任务中的表现。测试结果显示,Claude Opus 4.1的表现最佳,47.6%的成果接近人类专家,GPT-5紧随其后。研究指出模型进步迅速,未来将扩展任务范围和真实性。
关键要点
-
OpenAI发布GDPval基准,用于评估AI模型在经济价值任务中的表现。
-
GDPval覆盖美国GDP贡献最大的9个行业中的44种职业,年均创收达3万亿美元。
-
Claude Opus 4.1表现最佳,47.6%的成果媲美人类专家,GPT-5紧随其后,成绩为38.8%。
-
不同模型各有优势,Claude在美学方面突出,GPT-5在准确性上更优。
-
模型进步速度快,前沿模型在一年内胜率几乎翻倍。
-
GDPval任务基于真实工作成果,具备现实性,涵盖多种职业工作活动。
-
任务创建由行业专家设计,确保任务的广度与代表性,专家平均经验达14年。
-
GDPval全集包含1320项任务,经过多轮人类专家审核,确保任务质量。
-
OpenAI开源220项优质任务子集,采用盲态专家对比法进行评分。
-
Claude Opus 4.1在美观性方面表现突出,GPT-5在文本任务上表现更优。
-
研究发现AI模型与人类监督结合能提高经济效率,节省成本和时间。
-
GDPval存在局限性,如数据集规模有限、聚焦知识工作、缺乏交互性等。
-
OpenAI计划在未来迭代中拓展GDPval的覆盖范围和真实性。
延伸问答
GDPval基准的主要目的是什么?
GDPval基准旨在评估AI模型在真实世界经济价值任务中的表现。
Claude Opus 4.1和GPT-5的表现有什么区别?
Claude Opus 4.1在美观性方面表现突出,47.6%的成果媲美人类专家,而GPT-5在准确性上更优,成绩为38.8%。
GDPval基准覆盖了哪些行业和职业?
GDPval覆盖了美国GDP贡献最大的9个行业中的44种职业,这些职业年均创收达3万亿美元。
OpenAI如何确保GDPval任务的质量?
OpenAI通过行业专家设计任务,并经过多轮人类专家审核,确保任务的广度与代表性。
AI模型与人类监督结合的优势是什么?
结合AI模型与人类监督可以提高经济效率,节省成本和时间。
GDPval基准存在哪些局限性?
GDPval的局限性包括数据集规模有限、聚焦知识工作、缺乏交互性等。