小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

AI代理在企业私有代码库中逐渐成为自主协同者,但面临“随机鹦鹉”困境。为提高任务成功率,需要通过AGENTS.md标准化文档,提供非显性约束,避免冗余信息和上下文腐败。高质量的上下文能够提升Agent性能,确保其聚焦关键指令,减少无效搜索和推理成本。

AGENTS.md

开飞机的老张
开飞机的老张 · 2026-03-18T02:46:18Z
实践中评估AI代理:基准、框架与经验教训

本文探讨了AI代理的评估方法,强调应将代理视为系统而非单一模型。传统的准确性指标无法全面反映代理在实际应用中的表现,评估应关注任务成功率、工具故障恢复能力和在真实环境中的一致性。提出了五个评估支柱:智能与准确性、性能与效率、可靠性与韧性、责任与治理、用户体验。有效评估需结合自动化评分与人工判断,以确保代理在生产环境中的可行性和安全性。

实践中评估AI代理:基准、框架与经验教训

InfoQ
InfoQ · 2026-03-16T11:00:00Z
新研究重新评估 AGENTS.md 文件对 AI 编码的价值

苏黎世联邦理工学院的研究发现,AGENTS.md 文件可能会影响 AI 编码代理的性能。研究建议完全省略 LLM 生成的上下文文件,并限制人类编写的指令。结果显示,LLM 生成的文件降低了任务成功率,而人类编写的文件虽略有提升,但增加了步骤和成本。

新研究重新评估 AGENTS.md 文件对 AI 编码的价值

InfoQ
InfoQ · 2026-03-06T18:57:00Z
χ0——解决数据收集、模型训练、策略部署三者分布之间的不一致性:完成衣服的摊平、折叠、悬挂等多种任务

文章探讨了机器人操作中的分布不一致性问题,提出了χ0框架,通过模型算术、阶段优势和训练-部署对齐等技术,提高机器人在复杂任务中的鲁棒性和效率。重点在于如何有效利用有限的数据和示范,优化机器人学习与执行策略,以提升任务成功率和稳定性。

χ0——解决数据收集、模型训练、策略部署三者分布之间的不一致性:完成衣服的摊平、折叠、悬挂等多种任务

结构之法 算法之道
结构之法 算法之道 · 2026-02-17T15:58:20Z

极佳视界推出的GigaBrain-0.5M大模型成功率接近100%,能够完成叠衣服、冲咖啡等复杂任务。该模型基于世界模型进行强化学习,采用人机协作机制,显著提升任务成功率和决策策略的鲁棒性。通过海量训练数据,模型在长时程操作中表现优异,推动具身智能的发展。

捅破具身智能天花板!极佳视界新VLA大模型登场,复杂长时程任务近100%成功率

量子位
量子位 · 2026-02-15T05:52:39Z

“最强具身VLA大模型”π*0.6通过Recap学习方法,使机器人从错误中学习,任务成功率超过90%。该模型结合人类示范与自主经验,优化复杂任务表现,展现出高效自我纠正能力,为机器人研究提供新思路。

“最强具身VLA大模型”,究竟强在哪儿?

量子位
量子位 · 2025-11-21T07:50:35Z
PhysHSI——搬运箱子,不在话下:仿真中AMP训练,现实中结合内置的LiDAR和头部的外置相机做视觉感知、定位

本文介绍了PhysHSI系统,该系统旨在实现人形机器人在真实环境中的自然场景交互。通过结合LiDAR和相机,PhysHSI能够自主完成复杂任务,如搬运箱子、坐下和躺下。系统利用对抗运动先验(AMP)框架,提升了机器人在多样化场景中的泛化能力和自然动作表现。实验结果显示,PhysHSI在各种任务中表现出高成功率和良好的动作质量,展现了其在真实世界应用中的潜力。

PhysHSI——搬运箱子,不在话下:仿真中AMP训练,现实中结合内置的LiDAR和头部的外置相机做视觉感知、定位

结构之法 算法之道
结构之法 算法之道 · 2025-10-15T08:23:35Z
Agentic AI基础设施实践经验系列(六):Agent质量评估

Agent评估是对智能体在任务执行、决策和用户交互中的性能进行评估,关注任务成功率、安全性和效率等关键维度,以确保其在复杂环境中的可靠性。常用方法包括基准测试和人机协作评估,旨在优化性能并降低风险。

Agentic AI基础设施实践经验系列(六):Agent质量评估

亚马逊AWS官方博客
亚马逊AWS官方博客 · 2025-09-19T05:18:23Z

淘天提出的Mobile-R1是一个任务级奖励的交互式强化学习框架,旨在提高移动代理的适应性和探索能力。通过三阶段训练流程和高质量轨迹数据集,Mobile-R1在动态环境中的任务成功率达到49.40%,显著优于其他基准模型。

任务级奖励提升App Agent思考力,淘天提出Mobile-R1,3B模型可超32B

量子位
量子位 · 2025-07-20T06:48:17Z

本研究提出了SPlanner规划模块,利用扩展有限状态机高效建模移动应用控制逻辑,将用户指令分解为可执行路径,从而显著提高任务成功率和执行效果。

Building a Robust Planner: A Planning Module for Mobile GUI Agents Based on Extended Finite State Machines

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-20T00:00:00Z
真正重要的用户体验指标

设计数字产品时,应关注关键用户体验指标,如任务成功率、任务时间、用户错误率、系统可用性评分、净推荐值、用户留存率和客户满意度。这些指标能有效反映用户体验,助力优化设计和提升转化率。

真正重要的用户体验指标

DEV Community
DEV Community · 2025-05-19T07:37:59Z

本研究提出了知识捕捉、适应与组合(KCAC)框架,旨在解决机器人操作中强化学习的样本低效和可解释性不足的问题。该框架在复杂环境中实现了40%的训练时间缩短和10%的任务成功率提升,为强化学习中的课程设计应用提供了重要见解。

知识捕捉、适应与组合(KCAC):一种机器人操作中的跨任务课程学习框架

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-15T00:00:00Z

本研究提出RT-cache,一种新颖的机器人轨迹记忆管道,旨在降低现代视觉-语言-动作模型的推理成本。通过存储成功轨迹并检索相关运动片段,RT-cache显著提高了任务完成速度和成功率。

RT-cache: An Efficient Robot Trajectory Retrieval System

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-14T00:00:00Z

本研究提出了一种新方法,通过构建分解缩放曲线(FSC)来解决通用模仿学习政策的数据收集问题,使得在新环境中的任务成功率提高了26%。

通过分解缩放曲线指导数据收集

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-12T00:00:00Z

EcoAgent框架通过云端与边缘智能体的协作,解决了云端移动智能体在高延迟和高成本方面的问题。研究表明,该框架提高了移动自动化效率,确保了高任务成功率,并显著减少了大语言模型的令牌消耗。

EcoAgent: An Efficient Edge-Cloud Collaborative Multi-Agent Framework for Mobile Automation

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-08T00:00:00Z

本研究提出了一种通过奖励模型对视觉语言模型(VLM)进行过程监督的方法,显著提升了其在复杂图形用户界面交互中的表现,静态环境下一步行动准确率提高3.4%,动态环境任务成功率提高约33%。

在推理时使用过程奖励指导 VLM 代理进行 GUI 导航

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-22T00:00:00Z

本研究提出了一种新型模仿学习算法,旨在解决人形机器人在精确操作中的感知与控制复杂性问题。通过聚焦主要任务和采用空间注意机制,显著提高了任务成功率,展现出良好的稳健性和可扩展性,为人形机器人的自主学习与控制提供了新思路。

OminiAdapt: Learning Cross-Task Invariance for Robust and Environment-Aware Robotic Manipulation

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-27T00:00:00Z
OS-Genesis来了,自动收集和标注Agent数据,高效且多样

AIxiv专栏促进学术交流,报道超过2000篇内容。OS-Genesis提出了一种无人工监督的GUI数据合成框架,通过反向任务合成生成高质量轨迹数据,显著提高了GUI agent的任务成功率和适应性,为构建通用GUI agent提供了新思路。

OS-Genesis来了,自动收集和标注Agent数据,高效且多样

机器之心
机器之心 · 2025-01-22T05:13:08Z

CogACT是一种结合视觉、语言和动作的模型,通过VLM和DiT模块提升机器人在复杂任务中的表现。它提取认知信息并利用扩散模型预测动作,实现高精度和多模态的动作生成,显著提高任务成功率。

一文速览CogACT及其源码剖析:把OpenVLA的离散化动作预测换成DiT,逼近π0(含DiT的实现)

结构之法 算法之道
结构之法 算法之道 · 2025-01-12T04:10:35Z

本研究推出安全代理基准(SafeAgentBench),探讨具身代理执行复杂自然语言指令的安全风险。实验基于750个任务的数据集和通用环境,结果显示安全任务成功率为69%,而危险任务拒绝率仅为5%,揭示了潜在的安全隐患。

安全代理基准:具身大型语言模型代理的安全任务规划基准

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-17T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码