大模型集体“挂科”!全新中文网页检索测试:GPT-4o准确率仅6.2%
💡
原文中文,约1900字,阅读约需5分钟。
📝
内容提要
新基准测试BrowseComp-ZH显示,主流大模型在中文网页检索中的表现不佳,GPT-4o的准确率仅为6.2%。研究指出,中文信息碎片化和语言复杂性导致这一问题,需从中文语境设计测试。模型必须具备推理和信息整合能力,才能有效进行检索。
🎯
关键要点
- 新基准测试BrowseComp-ZH显示,主流大模型在中文网页检索中的表现不佳。
- GPT-4o的准确率仅为6.2%,多数模型准确率低于10%。
- 中文信息碎片化和语言复杂性是导致检索表现不佳的主要原因。
- 需要从中文语境设计测试,以衡量模型在中文网页上的理解和检索能力。
- 研究团队采用逆向设计法构建了289道高难度中文多跳检索题目。
- 模型不仅需要查资料,还需具备多跳推理和信息整合能力。
- 仅靠记忆的模型准确率低于10%,推理能力成为关键变量。
- 具备多轮检索能力的模型表现更好,单次检索的模型准确率低。
- 开启搜索功能的模型有时反而表现更差,未能有效融合网页信息。
- BrowseComp-ZH数据集已开源,研究者希望推动中文信息环境下的LLM发展。
❓
延伸问答
GPT-4o在中文网页检索测试中的准确率是多少?
GPT-4o的准确率仅为6.2%。
为什么中文网页检索对大模型来说如此困难?
中文信息碎片化和语言复杂性是主要原因,且现有测试多在英文语境下建立。
BrowseComp-ZH测试集是如何设计的?
研究团队采用逆向设计法,构建289道高难度中文多跳检索题目,确保问题结构清晰且仅有唯一答案。
哪些因素影响了模型在中文检索中的表现?
模型的推理能力和信息整合能力是关键,单靠记忆的模型准确率低于10%。
多轮检索能力对模型的表现有何影响?
具备多轮检索能力的模型表现更好,单次检索的模型准确率普遍较低。
BrowseComp-ZH数据集的开放有什么意义?
数据集的开放旨在推动中文信息环境下的LLM发展,促进模型的改进和应用。
➡️