OpenAI ·

BrowseComp：一个用于浏览代理的基准测试

💡 原文英文，约2100词，阅读约需8分钟。

📝

内容提要

BrowseComp是一个新的基准测试，旨在评估AI代理在互联网上寻找难以获取信息的能力。它包含1266个具有挑战性的问题，要求模型提供简短且唯一的答案。与现有基准不同，BrowseComp专注于复杂问题，强调模型的推理能力和创造性搜索策略。测试结果显示，Deep Research模型在解决问题方面表现优异，展示了其在信息检索中的潜力。

🎯

关键要点

BrowseComp是一个新的基准测试，旨在评估AI代理在互联网上寻找难以获取信息的能力。
该基准包含1266个具有挑战性的问题，要求模型提供简短且唯一的答案。
BrowseComp专注于复杂问题，强调模型的推理能力和创造性搜索策略。
测试结果显示，Deep Research模型在解决问题方面表现优异，解决了约50%的问题。
与现有基准不同，BrowseComp的问题设计要求模型具备持久性和创造性，以找到正确答案。
BrowseComp的设计鼓励创建个人感兴趣的话题，以提高数据质量和参与度。
评估结果表明，GPT-4o和GPT-4.5在BrowseComp上的准确率接近零，而Deep Research模型表现显著更好。
BrowseComp的目标是推动对更可靠和可信的AI的研究，并邀请研究人员对其进行评估和反馈。

🔎

延伸解读

BrowseComp的独特性

BrowseComp基准测试与现有的基准相比，专注于复杂问题的解决能力，强调模型的推理和创造性搜索策略。这种设计使得它能够更好地评估AI代理在面对难以获取的信息时的表现，尤其是在需要多次浏览和综合信息的情况下。

Deep Research模型的优势

测试结果显示，Deep Research模型在BrowseComp中表现优异，解决了约50%的问题。这表明，该模型在信息检索方面具备较强的能力，能够有效应对复杂和多层次的问题，展示了其在实际应用中的潜力。

模型性能的局限性

尽管Deep Research模型表现突出，但其他模型如GPT-4o和GPT-4.5在BrowseComp上的准确率接近零，显示出其在处理复杂问题时的局限性。这提醒研究人员在选择模型时需考虑其在特定任务上的适用性和有效性。

❓

延伸问答

BrowseComp的主要目标是什么？

BrowseComp的主要目标是评估AI代理在互联网上寻找难以获取信息的能力。

BrowseComp包含多少个问题？

BrowseComp包含1266个具有挑战性的问题。

Deep Research模型在BrowseComp上的表现如何？

Deep Research模型在BrowseComp上解决了约50%的问题，表现优异。

BrowseComp与其他基准测试有什么不同？

BrowseComp专注于复杂问题，强调模型的推理能力和创造性搜索策略，而其他基准测试如SimpleQA主要测量基本事实的检索能力。

在BrowseComp中，模型需要具备哪些能力？

模型需要具备持久性、创造性和推理能力，以找到正确答案。

BrowseComp的设计如何影响数据质量和参与度？

BrowseComp的设计鼓励创建个人感兴趣的话题，从而提高数据质量和参与度。

🏷️