大模型集体“挂科”!全新中文网页检索测试:GPT-4o准确率仅6.2%

💡 原文中文,约1900字,阅读约需5分钟。
📝

内容提要

新基准测试BrowseComp-ZH显示,主流大模型在中文网页检索中的表现不佳,GPT-4o的准确率仅为6.2%。研究指出,中文信息碎片化和语言复杂性导致这一问题,需从中文语境设计测试。模型必须具备推理和信息整合能力,才能有效进行检索。

🎯

关键要点

  • 新基准测试BrowseComp-ZH显示,主流大模型在中文网页检索中的表现不佳。
  • GPT-4o的准确率仅为6.2%,多数模型准确率低于10%。
  • 中文信息碎片化和语言复杂性是导致检索表现不佳的主要原因。
  • 需要从中文语境设计测试,以衡量模型在中文网页上的理解和检索能力。
  • 研究团队采用逆向设计法构建了289道高难度中文多跳检索题目。
  • 模型不仅需要查资料,还需具备多跳推理和信息整合能力。
  • 仅靠记忆的模型准确率低于10%,推理能力成为关键变量。
  • 具备多轮检索能力的模型表现更好,单次检索的模型准确率低。
  • 开启搜索功能的模型有时反而表现更差,未能有效融合网页信息。
  • BrowseComp-ZH数据集已开源,研究者希望推动中文信息环境下的LLM发展。

延伸问答

GPT-4o在中文网页检索测试中的准确率是多少?

GPT-4o的准确率仅为6.2%。

为什么中文网页检索对大模型来说如此困难?

中文信息碎片化和语言复杂性是主要原因,且现有测试多在英文语境下建立。

BrowseComp-ZH测试集是如何设计的?

研究团队采用逆向设计法,构建289道高难度中文多跳检索题目,确保问题结构清晰且仅有唯一答案。

哪些因素影响了模型在中文检索中的表现?

模型的推理能力和信息整合能力是关键,单靠记忆的模型准确率低于10%。

多轮检索能力对模型的表现有何影响?

具备多轮检索能力的模型表现更好,单次检索的模型准确率普遍较低。

BrowseComp-ZH数据集的开放有什么意义?

数据集的开放旨在推动中文信息环境下的LLM发展,促进模型的改进和应用。

➡️

继续阅读