BrowseComp: 一种简单而具有挑战性的浏览代理基准测试

📝

内容提要

本文提出了BrowseComp,一个简单但具有挑战性的基准测试,用于衡量代理在网上浏览信息的能力。该基准测试包含1266个问题,要求代理持久性地导航,以寻找难以找到的纠缠信息,展示了在信息搜索中的创造力和坚持不懈的重要性。

🏷️

标签

➡️

继续阅读