谁是最强“打工AI”?OpenAI亲自测试,结果第一不是自己

💡 原文中文,约3000字,阅读约需8分钟。
📝

内容提要

OpenAI发布了GDPval基准,以评估AI模型在经济价值任务中的表现。测试结果显示,Claude Opus 4.1的表现最佳,47.6%的成果接近人类专家,GPT-5紧随其后。研究指出模型进步迅速,未来将扩展任务范围和真实性。

🎯

关键要点

  • OpenAI发布GDPval基准,用于评估AI模型在经济价值任务中的表现。

  • GDPval覆盖美国GDP贡献最大的9个行业中的44种职业,年均创收达3万亿美元。

  • Claude Opus 4.1表现最佳,47.6%的成果媲美人类专家,GPT-5紧随其后,成绩为38.8%。

  • 不同模型各有优势,Claude在美学方面突出,GPT-5在准确性上更优。

  • 模型进步速度快,前沿模型在一年内胜率几乎翻倍。

  • GDPval任务基于真实工作成果,具备现实性,涵盖多种职业工作活动。

  • 任务创建由行业专家设计,确保任务的广度与代表性,专家平均经验达14年。

  • GDPval全集包含1320项任务,经过多轮人类专家审核,确保任务质量。

  • OpenAI开源220项优质任务子集,采用盲态专家对比法进行评分。

  • Claude Opus 4.1在美观性方面表现突出,GPT-5在文本任务上表现更优。

  • 研究发现AI模型与人类监督结合能提高经济效率,节省成本和时间。

  • GDPval存在局限性,如数据集规模有限、聚焦知识工作、缺乏交互性等。

  • OpenAI计划在未来迭代中拓展GDPval的覆盖范围和真实性。

延伸问答

GDPval基准的主要目的是什么?

GDPval基准旨在评估AI模型在真实世界经济价值任务中的表现。

Claude Opus 4.1和GPT-5的表现有什么区别?

Claude Opus 4.1在美观性方面表现突出,47.6%的成果媲美人类专家,而GPT-5在准确性上更优,成绩为38.8%。

GDPval基准覆盖了哪些行业和职业?

GDPval覆盖了美国GDP贡献最大的9个行业中的44种职业,这些职业年均创收达3万亿美元。

OpenAI如何确保GDPval任务的质量?

OpenAI通过行业专家设计任务,并经过多轮人类专家审核,确保任务的广度与代表性。

AI模型与人类监督结合的优势是什么?

结合AI模型与人类监督可以提高经济效率,节省成本和时间。

GDPval基准存在哪些局限性?

GDPval的局限性包括数据集规模有限、聚焦知识工作、缺乏交互性等。

➡️

继续阅读