量子位 ·

谁是最强“打工AI”？OpenAI亲自测试，结果第一不是自己

💡 原文中文，约3000字，阅读约需8分钟。

📝

内容提要

OpenAI发布了GDPval基准，以评估AI模型在经济价值任务中的表现。测试结果显示，Claude Opus 4.1的表现最佳，47.6%的成果接近人类专家，GPT-5紧随其后。研究指出模型进步迅速，未来将扩展任务范围和真实性。

🎯

🔎

GDPval基准的推出，标志着AI评估向更真实的经济价值任务迈进。通过涵盖多个行业和职业，OpenAI确保了任务的广泛性和代表性。这种基准不仅能帮助企业选择合适的AI工具，还能推动AI技术在实际工作中的应用，提高经济效率。

Claude Opus 4.1在美观性方面表现突出，而GPT-5在准确性上更具优势。这种差异化的表现意味着企业在选择AI模型时，应根据具体任务需求进行选择。例如，处理文档和幻灯片时，Claude可能更合适，而在需要严格遵循指令的文本任务中，GPT-5则更为优越。

OpenAI计划在未来的GDPval迭代中扩展任务范围和真实性，尤其是希望增加交互性和涵盖更多场景。这意味着，随着技术的进步，AI模型的应用将更加广泛，企业在利用AI时也需关注这些变化，以便更好地适应未来的市场需求。

❓

GDPval基准旨在评估AI模型在真实世界经济价值任务中的表现。

Claude Opus 4.1在美观性方面表现突出，47.6%的成果媲美人类专家，而GPT-5在准确性上更优，成绩为38.8%。

GDPval覆盖了美国GDP贡献最大的9个行业中的44种职业，这些职业年均创收达3万亿美元。

OpenAI通过行业专家设计任务，并经过多轮人类专家审核，确保任务的广度与代表性。

结合AI模型与人类监督可以提高经济效率，节省成本和时间。

GDPval的局限性包括数据集规模有限、聚焦知识工作、缺乏交互性等。

🏷️