量子位 ·

大模型集体“挂科”！全新中文网页检索测试：GPT-4o准确率仅6.2%

Q: GPT-4o在中文网页检索测试中的准确率是多少？

GPT-4o的准确率仅为6.2%。

💡 原文中文，约1900字，阅读约需5分钟。

📝

内容提要

新基准测试BrowseComp-ZH显示，主流大模型在中文网页检索中的表现不佳，GPT-4o的准确率仅为6.2%。研究指出，中文信息碎片化和语言复杂性导致这一问题，需从中文语境设计测试。模型必须具备推理和信息整合能力，才能有效进行检索。

🎯

关键要点

新基准测试BrowseComp-ZH显示，主流大模型在中文网页检索中的表现不佳。
GPT-4o的准确率仅为6.2%，多数模型准确率低于10%。
中文信息碎片化和语言复杂性是导致检索表现不佳的主要原因。
需要从中文语境设计测试，以衡量模型在中文网页上的理解和检索能力。
研究团队采用逆向设计法构建了289道高难度中文多跳检索题目。
模型不仅需要查资料，还需具备多跳推理和信息整合能力。
仅靠记忆的模型准确率低于10%，推理能力成为关键变量。
具备多轮检索能力的模型表现更好，单次检索的模型准确率低。
开启搜索功能的模型有时反而表现更差，未能有效融合网页信息。
BrowseComp-ZH数据集已开源，研究者希望推动中文信息环境下的LLM发展。

🔎

延伸解读

中文检索的挑战

中文网页检索面临信息碎片化和语言复杂性的问题。许多信息分散在不同平台，且常用的语言结构可能导致检索偏差。这使得大模型在中文环境下的表现普遍不佳，反映出当前模型在处理中文信息时的局限性。

推理能力的重要性

测试结果显示，具备推理能力的模型表现明显优于仅依赖记忆的模型。推理能力不仅影响检索准确率，还决定了模型在复杂问题上的应对能力。因此，未来的模型开发应更加注重推理和信息整合能力的提升。

多轮检索的优势

研究表明，具备多轮检索能力的模型在准确率上显著优于单次检索的模型。这提示开发者在设计检索系统时，应考虑多轮交互的策略，以提高信息获取的准确性和有效性。

数据集的开放性

BrowseComp-ZH数据集的开源为研究者提供了一个重要的测试平台，促进了中文信息环境下大模型的发展。开发者可以利用这一数据集进行模型优化，推动中文智能体的实际应用。

❓

延伸问答

GPT-4o在中文网页检索测试中的准确率是多少？

GPT-4o的准确率仅为6.2%。

为什么中文网页检索对大模型来说如此困难？

中文信息碎片化和语言复杂性是主要原因，且现有测试多在英文语境下建立。

BrowseComp-ZH测试集是如何设计的？

研究团队采用逆向设计法，构建289道高难度中文多跳检索题目，确保问题结构清晰且仅有唯一答案。

哪些因素影响了模型在中文检索中的表现？

模型的推理能力和信息整合能力是关键，单靠记忆的模型准确率低于10%。

多轮检索能力对模型的表现有何影响？

具备多轮检索能力的模型表现更好，单次检索的模型准确率普遍较低。

BrowseComp-ZH数据集的开放有什么意义？

数据集的开放旨在推动中文信息环境下的LLM发展，促进模型的改进和应用。

🏷️