小红花·文摘

新基准测试BrowseComp-ZH显示，主流大模型在中文网页检索中的表现不佳，GPT-4o的准确率仅为6.2%。研究指出，中文信息碎片化和语言复杂性导致这一问题，需从中文语境设计测试。模型必须具备推理和信息整合能力，才能有效进行检索。