RealWebAssist: A Benchmark for Long-Term Web Assistance for Real Users
💡
原文英文,约100词,阅读约需1分钟。
📝
内容提要
本研究提出RealWebAssist基准,旨在解决现有网络代理在长时间任务中处理模糊用户指令的不足,发现先进模型在理解和执行指令方面面临显著挑战。
🎯
关键要点
-
本研究提出RealWebAssist基准,旨在解决现有网络代理在长时间任务中处理模糊用户指令的不足。
-
RealWebAssist基准用于评估现实场景中的顺序指令跟随能力。
-
研究发现,当前的先进模型在理解和执行用户指令方面存在显著挑战。
-
研究反映出在长时间网络辅助中需要改进的关键领域。
➡️