小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

本研究提出了REAL框架,用于评估自主智能体在11个常用网站的表现。通过112个实用任务,结果显示前沿语言模型的成功率最高仅为41%,揭示了自主网络导航和任务完成能力的不足。

REAL: Benchmarking Autonomous Agents on Deterministic Simulations of Real Websites

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-15T00:00:00Z

本文介绍了一种名为Auto-Intent的方法,旨在将预训练的大型语言模型适配为特定领域的代理,专注于网络导航任务。该方法通过无监督学习发现潜在意图,显著提升了GPT和Llama代理在真实网站导航测试中的表现。

自动意图:大型语言模型网页代理的自动化意图发现与自我探索

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-29T00:00:00Z

该研究探索了语言模型在复杂任务中的应用,发现当前的语言模型和检索增强型语言模型的准确性有限。研究介绍了一种新型网络代理,性能优于以前的代理。此外,研究还分析了当前系统的失败,并强调网络导航仍然是一个重大挑战。

AssistantBench:网络代理能否解决现实且耗时的任务?

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-22T00:00:00Z

使用通用自动评估器提高网络导航和设备控制代理性能,通过权衡推理成本、设计模块性和准确性进行实验。通过微调和推理时指导使用这些评估器来提高现有代理的性能,性能提升达到29%。在具有挑战性的领域转移场景中实现了75%的相对改进。

数字代理的自主评估和优化

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-04-09T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码