NotionNext BLOG ·

GUI Agent 中使用 RL 提升模型泛化能力

💡 原文中文，约3300字，阅读约需8分钟。

📝

内容提要

Digi-Q 是 DigiRL 的后续项目，旨在通过离线数据训练值函数和策略网络，以降低与 GUI 环境交互的成本。采用 TD 学习和微调 VLM，Digi-Q 在 AITW 上表现出稳定性和高效性，通过离线训练实现策略优化，避免了在线数据收集的方差问题。

🎯

关键要点

Digi-Q 是 DigiRL 的后续项目，旨在降低与 GUI 环境交互的成本。
Digi-Q 通过离线数据训练值函数和策略网络，避免在线数据收集的方差问题。
使用 TD 学习和微调 VLM，Digi-Q 在 AITW 上表现出稳定性和高效性。
值函数的训练使用 TD 算法，避免训练不稳定的问题。
Digi-Q 在训练 Q 函数前对 VLM 的向量表示进行微调，以提高可操作性。
微调目标是判断在当前状态下执行动作是否会导致状态显著变化。
利用 Best-of-N 方法训练策略网络，以提升策略概率值的稳定性和高效性。
实验结果显示 Digi-Q 在 AITW 上效果良好，具有较好的稳定性和较小的方差。
Digi-Q 的思路与其他 RL 算法相似，先训练值函数再训练策略模型。
Critic Model 通过生成二元标签来评估任务进展，模拟类人化的任务评估。
Policy Model 通过 PPO 算法最大化目标函数，实现稳定的动作评估。
整个训练过程完全可以离线进行，降低计算成本并提高学习稳定性。

❓

延伸问答

Digi-Q 的主要目标是什么？

Digi-Q 的主要目标是通过离线数据训练值函数和策略网络，以降低与 GUI 环境交互的成本。

Digi-Q 如何避免在线数据收集的方差问题？

Digi-Q 通过离线数据训练值函数和策略网络，避免了在线数据收集的方差问题。

Digi-Q 在 AITW 上的表现如何？

实验结果显示 Digi-Q 在 AITW 上表现出稳定性和高效性，具有较好的稳定性和较小的方差。

Digi-Q 使用了哪些算法来训练值函数？

Digi-Q 使用了 TD 学习算法来训练值函数，避免训练不稳定的问题。

Digi-Q 的策略网络是如何训练的？

Digi-Q 利用 Best-of-N 方法训练策略网络，以提升策略概率值的稳定性和高效性。

Digi-Q 中的 VLM 微调有什么目的？

VLM 微调的目的是判断在当前状态下执行动作是否会导致状态显著变化，从而提高可操作性。

🏷️

继续阅读

Claude Mythos Preview 模型能力解析：大模型攻防实测与企业应对建议
绿盟科技的报告分析了Anthropic的Claude Mythos模型，指出其在0day漏洞挖掘和网络攻击中的高效能，可能增加开源供应链的风险。报告建议企...
Zed AI 白嫖免费模型，搭配 DeepSeek v4，玩转 Agent 编程技巧 - 曦远Code
Zed 编辑器功能灵活，支持多种 AI 模型，用户可通过 ACP 协议配置 agent。虽然 AI 功能有限，但适合日常开发和文档生成，提供免费模型使用，...
在线教程丨高性能与易部署兼得，DeepSeek-V4-Flash模型参数284B，简单任务可媲美1.6T Pro版模型
DeepSeek V4 最近发布，分为 DeepSeek-V4-Pro 和 DeepSeek-V4-Flash 两个版本。Pro 版本参数达到 1.6T，...
Harness就是后端：三大原语降低Agent复杂度
文章讨论了AI系统中Agent与后端的统一设计，提出将其简化为Worker、Trigger和Function三部分，以降低复杂度和提升可观测性。这种设计使...
从应用到 Agent：开发范式正在发生什么变化？
AI Agent 正在改变软件开发，转向基于目标的动态决策。本文探讨了 Agent 系统与传统应用的差异，强调在构建可扩展、可控的 Agent 系统时需关...
腾讯开源手机端离线翻译模型，仅0.4G，支持33种语言
腾讯混元推出了开源的离线翻译模型Hy-MT1.5-1.8B-1.25bit，支持33种语言，压缩至440MB，翻译质量优于谷歌翻译。该模型可在手机本地运行...