小红花·文摘

本研究提出了WebNav，一种语音控制的网页导航代理，旨在帮助视觉障碍用户。结合ReAct架构和生成式人工智能，显著提升了任务完成的准确性和响应速度。

WebNav: An Intelligent Voice-Controlled Web Navigation Agent

BriefGPT - AI 论文速递 ·

本文介绍了基于大型语言模型（LLMs）的网络代理技术的进展，包括WebAgent、WebVoyager和AutoWebGLM等新模型。这些模型通过与真实网站交互，提高了网页导航任务的成功率，并提出了新的评估协议和框架，以应对复杂用户指令和长期任务的挑战。同时，研究还探讨了多模态代理的性能及未来发展方向。

AgentOccam：基于LLM的网页代理的简单而强大的基线

BriefGPT - AI 论文速递 ·

本文探讨了大型语言模型（LLMs）在复杂环境中的推理和决策能力，尤其是在网页导航和任务规划中的应用。研究表明，商业LLMs与开源模型之间存在显著性能差距。基准测试显示，LLMs的任务完成率提高了31%，在HTML任务中的成功率提升超过50%。此外，提出了新的评估指标和基准系统，以促进语言导向任务规划器的发展，并揭示了未来研究的重要方向。

AssistantBench：网络代理能否解决现实且耗时的任务？

BriefGPT - AI 论文速递 ·

大型语言模型在推理任务中表现优异，但在复杂决策上仍存在不足。研究提出了一种自主树搜索能力，显著提高了推理准确性并降低成本。通过新基准测试SearchBench，发现现有模型在逻辑问题上表现不佳。结合A*算法和多阶段方法，提升了模型性能。实验表明，基于状态空间的交互式任务建模方法在网页导航中表现出色，缩小了与人类的差距。

语言模型代理的树搜索

BriefGPT - AI 论文速递 ·

该项目是一个在线工具箱程序，可用作网页导航，具有后台界面、插件安装和自定义编译插件上传功能。支持分类标签、多用户管理界面、在线更新和流量统计等功能。部署过程复杂，需要使用数据库和webstation。

夹带私活？唱，跳，篮球？NAS搭建功能齐全插件巨多的傲星工具箱

熊猫不是猫QAQ ·