小红花·文摘

让大模型互联网「冲浪」，通义实验室WebWalker解锁复杂信息检索新技能

机器之心 ·

本研究针对传统搜索引擎提供的表面内容限制了大规模语言模型（LLMs）处理复杂信息的能力这一问题，提出了WebWalkerQA基准，评估LLMs在网站子页面中系统提取高质量数据的能力。研究结果表明，WebWalker结合检索增强生成（RAG）方法在真实场景中的水平和垂直整合展现出了显著的效果，具有重要的实用价值。

WebWalker：大规模语言模型在网页遍历中的基准测试

BriefGPT - AI 论文速递 ·