MMInA:多跳多模态互联网代理的基准测试

原文约400字,阅读约需1分钟。发表于:

多模态网站的自主体代理在逐渐演变的真实环境中完成复杂用户任务具有挑战性,提出了 MMInA,这是一个多跳和多模态评估综合互联网任务能力的基准,通过构建真实世界的多模态网站和综合任务评估协议,发现自主体代理在长链多跳互联网任务方面存在挑战,提出了一种简单的记忆增强方法,明显提高了代理的单跳和多跳网络浏览能力。

WebVoyager是一种创新的网络代理,通过与真实网站的交互来完成用户指令。使用GPT-4V的多模态理解能力,WebVoyager在15个广泛使用的网站上获得了55.7%的任务成功率,超过了其他设置。自动评估与人类判断达到了85.3%的一致性。

相关推荐 去reddit讨论