AI代理在企业私有代码库中逐渐成为自主协同者,但面临“随机鹦鹉”困境。为提高任务成功率,需要通过AGENTS.md标准化文档,提供非显性约束,避免冗余信息和上下文腐败。高质量的上下文能够提升Agent性能,确保其聚焦关键指令,减少无效搜索和推理成本。
本文探讨了AI代理的评估方法,强调应将代理视为系统而非单一模型。传统的准确性指标无法全面反映代理在实际应用中的表现,评估应关注任务成功率、工具故障恢复能力和在真实环境中的一致性。提出了五个评估支柱:智能与准确性、性能与效率、可靠性与韧性、责任与治理、用户体验。有效评估需结合自动化评分与人工判断,以确保代理在生产环境中的可行性和安全性。
苏黎世联邦理工学院的研究发现,AGENTS.md 文件可能会影响 AI 编码代理的性能。研究建议完全省略 LLM 生成的上下文文件,并限制人类编写的指令。结果显示,LLM 生成的文件降低了任务成功率,而人类编写的文件虽略有提升,但增加了步骤和成本。
文章探讨了机器人操作中的分布不一致性问题,提出了χ0框架,通过模型算术、阶段优势和训练-部署对齐等技术,提高机器人在复杂任务中的鲁棒性和效率。重点在于如何有效利用有限的数据和示范,优化机器人学习与执行策略,以提升任务成功率和稳定性。
极佳视界推出的GigaBrain-0.5M大模型成功率接近100%,能够完成叠衣服、冲咖啡等复杂任务。该模型基于世界模型进行强化学习,采用人机协作机制,显著提升任务成功率和决策策略的鲁棒性。通过海量训练数据,模型在长时程操作中表现优异,推动具身智能的发展。
“最强具身VLA大模型”π*0.6通过Recap学习方法,使机器人从错误中学习,任务成功率超过90%。该模型结合人类示范与自主经验,优化复杂任务表现,展现出高效自我纠正能力,为机器人研究提供新思路。
本文介绍了PhysHSI系统,该系统旨在实现人形机器人在真实环境中的自然场景交互。通过结合LiDAR和相机,PhysHSI能够自主完成复杂任务,如搬运箱子、坐下和躺下。系统利用对抗运动先验(AMP)框架,提升了机器人在多样化场景中的泛化能力和自然动作表现。实验结果显示,PhysHSI在各种任务中表现出高成功率和良好的动作质量,展现了其在真实世界应用中的潜力。
Agent评估是对智能体在任务执行、决策和用户交互中的性能进行评估,关注任务成功率、安全性和效率等关键维度,以确保其在复杂环境中的可靠性。常用方法包括基准测试和人机协作评估,旨在优化性能并降低风险。
淘天提出的Mobile-R1是一个任务级奖励的交互式强化学习框架,旨在提高移动代理的适应性和探索能力。通过三阶段训练流程和高质量轨迹数据集,Mobile-R1在动态环境中的任务成功率达到49.40%,显著优于其他基准模型。
本研究提出了SPlanner规划模块,利用扩展有限状态机高效建模移动应用控制逻辑,将用户指令分解为可执行路径,从而显著提高任务成功率和执行效果。
设计数字产品时,应关注关键用户体验指标,如任务成功率、任务时间、用户错误率、系统可用性评分、净推荐值、用户留存率和客户满意度。这些指标能有效反映用户体验,助力优化设计和提升转化率。
本研究提出了知识捕捉、适应与组合(KCAC)框架,旨在解决机器人操作中强化学习的样本低效和可解释性不足的问题。该框架在复杂环境中实现了40%的训练时间缩短和10%的任务成功率提升,为强化学习中的课程设计应用提供了重要见解。
本研究提出RT-cache,一种新颖的机器人轨迹记忆管道,旨在降低现代视觉-语言-动作模型的推理成本。通过存储成功轨迹并检索相关运动片段,RT-cache显著提高了任务完成速度和成功率。
本研究提出了一种新方法,通过构建分解缩放曲线(FSC)来解决通用模仿学习政策的数据收集问题,使得在新环境中的任务成功率提高了26%。
EcoAgent框架通过云端与边缘智能体的协作,解决了云端移动智能体在高延迟和高成本方面的问题。研究表明,该框架提高了移动自动化效率,确保了高任务成功率,并显著减少了大语言模型的令牌消耗。
本研究提出了一种通过奖励模型对视觉语言模型(VLM)进行过程监督的方法,显著提升了其在复杂图形用户界面交互中的表现,静态环境下一步行动准确率提高3.4%,动态环境任务成功率提高约33%。
本研究提出了一种新型模仿学习算法,旨在解决人形机器人在精确操作中的感知与控制复杂性问题。通过聚焦主要任务和采用空间注意机制,显著提高了任务成功率,展现出良好的稳健性和可扩展性,为人形机器人的自主学习与控制提供了新思路。
AIxiv专栏促进学术交流,报道超过2000篇内容。OS-Genesis提出了一种无人工监督的GUI数据合成框架,通过反向任务合成生成高质量轨迹数据,显著提高了GUI agent的任务成功率和适应性,为构建通用GUI agent提供了新思路。
CogACT是一种结合视觉、语言和动作的模型,通过VLM和DiT模块提升机器人在复杂任务中的表现。它提取认知信息并利用扩散模型预测动作,实现高精度和多模态的动作生成,显著提高任务成功率。
本研究推出安全代理基准(SafeAgentBench),探讨具身代理执行复杂自然语言指令的安全风险。实验基于750个任务的数据集和通用环境,结果显示安全任务成功率为69%,而危险任务拒绝率仅为5%,揭示了潜在的安全隐患。
完成下面两步后,将自动完成登录并继续当前操作。