小红花·文摘

AI代理在企业私有代码库中逐渐成为自主协同者，但面临“随机鹦鹉”困境。为提高任务成功率，需要通过AGENTS.md标准化文档，提供非显性约束，避免冗余信息和上下文腐败。高质量的上下文能够提升Agent性能，确保其聚焦关键指令，减少无效搜索和推理成本。

AGENTS.md

开飞机的老张 ·

实践中评估AI代理：基准、框架与经验教训

InfoQ ·

新研究重新评估 AGENTS.md 文件对 AI 编码的价值

InfoQ ·

$χ0——解决数据收集、模型训练、策略部署三者分布之间的不一致性：完成衣服的摊平、折叠、悬挂等多种任务$

χ0——解决数据收集、模型训练、策略部署三者分布之间的不一致性：完成衣服的摊平、折叠、悬挂等多种任务

结构之法算法之道 ·

极佳视界推出的GigaBrain-0.5M大模型成功率接近100%，能够完成叠衣服、冲咖啡等复杂任务。该模型基于世界模型进行强化学习，采用人机协作机制，显著提升任务成功率和决策策略的鲁棒性。通过海量训练数据，模型在长时程操作中表现优异，推动具身智能的发展。

捅破具身智能天花板！极佳视界新VLA大模型登场，复杂长时程任务近100%成功率

量子位 ·

“最强具身VLA大模型”π*0.6通过Recap学习方法，使机器人从错误中学习，任务成功率超过90%。该模型结合人类示范与自主经验，优化复杂任务表现，展现出高效自我纠正能力，为机器人研究提供新思路。

“最强具身VLA大模型”，究竟强在哪儿？

量子位 ·

$PhysHSI——搬运箱子，不在话下：仿真中AMP训练，现实中结合内置的LiDAR和头部的外置相机做视觉感知、定位$

PhysHSI——搬运箱子，不在话下：仿真中AMP训练，现实中结合内置的LiDAR和头部的外置相机做视觉感知、定位

结构之法算法之道 ·

Agentic AI基础设施实践经验系列（六）：Agent质量评估

亚马逊AWS官方博客 ·

淘天提出的Mobile-R1是一个任务级奖励的交互式强化学习框架，旨在提高移动代理的适应性和探索能力。通过三阶段训练流程和高质量轨迹数据集，Mobile-R1在动态环境中的任务成功率达到49.40%，显著优于其他基准模型。

任务级奖励提升App Agent思考力，淘天提出Mobile-R1，3B模型可超32B

量子位 ·

本研究提出了SPlanner规划模块，利用扩展有限状态机高效建模移动应用控制逻辑，将用户指令分解为可执行路径，从而显著提高任务成功率和执行效果。

Building a Robust Planner: A Planning Module for Mobile GUI Agents Based on Extended Finite State Machines

BriefGPT - AI 论文速递 ·

真正重要的用户体验指标

DEV Community ·

本研究提出了知识捕捉、适应与组合（KCAC）框架，旨在解决机器人操作中强化学习的样本低效和可解释性不足的问题。该框架在复杂环境中实现了40%的训练时间缩短和10%的任务成功率提升，为强化学习中的课程设计应用提供了重要见解。

知识捕捉、适应与组合（KCAC）：一种机器人操作中的跨任务课程学习框架

BriefGPT - AI 论文速递 ·

本研究提出RT-cache，一种新颖的机器人轨迹记忆管道，旨在降低现代视觉-语言-动作模型的推理成本。通过存储成功轨迹并检索相关运动片段，RT-cache显著提高了任务完成速度和成功率。

RT-cache: An Efficient Robot Trajectory Retrieval System

BriefGPT - AI 论文速递 ·

本研究提出了一种新方法，通过构建分解缩放曲线(FSC)来解决通用模仿学习政策的数据收集问题，使得在新环境中的任务成功率提高了26%。

通过分解缩放曲线指导数据收集

BriefGPT - AI 论文速递 ·

EcoAgent框架通过云端与边缘智能体的协作，解决了云端移动智能体在高延迟和高成本方面的问题。研究表明，该框架提高了移动自动化效率，确保了高任务成功率，并显著减少了大语言模型的令牌消耗。

EcoAgent: An Efficient Edge-Cloud Collaborative Multi-Agent Framework for Mobile Automation

BriefGPT - AI 论文速递 ·

本研究提出了一种通过奖励模型对视觉语言模型（VLM）进行过程监督的方法，显著提升了其在复杂图形用户界面交互中的表现，静态环境下一步行动准确率提高3.4%，动态环境任务成功率提高约33%。

在推理时使用过程奖励指导 VLM 代理进行 GUI 导航

BriefGPT - AI 论文速递 ·

本研究提出了一种新型模仿学习算法，旨在解决人形机器人在精确操作中的感知与控制复杂性问题。通过聚焦主要任务和采用空间注意机制，显著提高了任务成功率，展现出良好的稳健性和可扩展性，为人形机器人的自主学习与控制提供了新思路。

OminiAdapt: Learning Cross-Task Invariance for Robust and Environment-Aware Robotic Manipulation

BriefGPT - AI 论文速递 ·

OS-Genesis来了，自动收集和标注Agent数据，高效且多样

机器之心 ·

CogACT是一种结合视觉、语言和动作的模型，通过VLM和DiT模块提升机器人在复杂任务中的表现。它提取认知信息并利用扩散模型预测动作，实现高精度和多模态的动作生成，显著提高任务成功率。

一文速览CogACT及其源码剖析：把OpenVLA的离散化动作预测换成DiT，逼近π0(含DiT的实现)

结构之法算法之道 ·

本研究推出安全代理基准（SafeAgentBench），探讨具身代理执行复杂自然语言指令的安全风险。实验基于750个任务的数据集和通用环境，结果显示安全任务成功率为69%，而危险任务拒绝率仅为5%，揭示了潜在的安全隐患。

安全代理基准：具身大型语言模型代理的安全任务规划基准

BriefGPT - AI 论文速递 ·