$HIL-DAFT——双智能体的人类在环RL框架微调的人形VLA(先离线预热后在线交互)：为完成螺栓装配，主智能体负责常规操作、精细化执行体依据语音指令实行细粒度调整$

结构之法算法之道 ·

HIL-DAFT——双智能体的人类在环RL框架微调的人形VLA(先离线预热后在线交互)：为完成螺栓装配，主智能体负责常规操作、精细化执行体依据语音指令实行细粒度调整

💡 原文中文，约3600字，阅读约需9分钟。

📝

内容提要

本文探讨了一种双执行体强化学习框架，结合人类反馈优化视觉-语言-动作（VLA）模型。通过“对话与微调”机制，机器人在长时域操作中实现高效学习，成功率达到100%。该方法在多任务设置中展现出良好的样本效率和训练稳定性，适用于复杂的机器人操作任务。

🎯

关键要点

本文提出了一种双执行体强化学习框架，结合人类反馈优化视觉-语言-动作（VLA）模型。
通过“对话与微调”机制，机器人在长时域操作中实现高效学习，成功率达到100%。
该方法在多任务设置中展现出良好的样本效率和训练稳定性，适用于复杂的机器人操作任务。
主执行体负责产生任务通用的动作，而精细化执行体根据人类反馈进行细粒度调整。
在长时域操作任务中，机器人成功将散落的螺栓竖直放置、抓取并进行装配，展现出强大的鲁棒性。

❓

延伸问答

HIL-DAFT框架的主要功能是什么？

HIL-DAFT框架结合人类反馈，通过双执行体优化视觉-语言-动作（VLA）模型，实现高效的机器人操作学习。

该框架如何实现高效学习？

通过“对话与微调”机制，机器人在长时域操作中实现高效学习，成功率达到100%。

主执行体和精细化执行体的角色是什么？

主执行体负责产生任务通用的动作，而精细化执行体根据人类反馈进行细粒度调整。

该方法在多任务设置中的表现如何？

该方法在多任务设置中展现出良好的样本效率和训练稳定性，适用于复杂的机器人操作任务。

HIL-DAFT框架的成功率是多少？

在经过101分钟的在线微调后，该框架在各个子任务上达到了100%的成功率。

该框架如何处理长时域操作任务？

框架通过双执行体学习，依次将散落的螺栓竖直放置、抓取并进行装配，展现出强大的鲁棒性。

🏷️

继续阅读

MiniCPM5-1B采用RL+OPD训练，多项复杂任务达SOTA；面向复杂医疗业务自动化：医疗智能体评测数据集 CHI-Bench
TACK 是 AI Laboratory for Molecular Engineering 于 2026 年发布的一个标准化知识库数据集与基准测试集，旨...
AI智能体安全四件套：从PII泄露到400美元账单的教训
本文分享了作者在开发AI智能体时的经验，强调了四个安全措施：输入检查、输出检查、成本断路器和工具调用检查。这些措施能有效避免隐私泄露和高额账单，确保AI安全运行。
在自主数据库时代，人类的需求为何不会消失
Percona联合创始人Vadim Tkachenko在会议上指出，未来数据库管理员将转变为数据架构师，日常维护将由自动化和人工智能处理，人类将专注于数据...
使用yii3实现一个微框架
本文介绍了如何使用 Yii3 框架构建微框架，包括创建项目目录、安装依赖、编写入口文件 index.php、配置事件监听器和路由。示例路由涵盖首页、健康检...
Galaxea G0.5——升级“VLA自回归建模”范式：摒弃VLM上添加动作专家的模式，而是构建统一模型，用一套权重，在同一个自回归token序列中同时生成推理与动作(含VLA-0的详解)
星海图提出的G0.5模型将视觉语言模型与动作生成统一为单一自回归序列，通过共享权重实现推理与动作的耦合，提升机器人控制效率。该模型采用可学习的动作分词器和...
在Vibe编码时代使OWASP前十名更具影响力
2025年OWASP前十名更新将重点从“过时组件”转向软件供应链安全，新增内存安全和“vibe编码”意识项，反映了开发者和网络应用安全领域对关键安全风险的共识。