Digi-Q 是 DigiRL 的后续项目,旨在通过离线数据训练值函数和策略网络,以降低与 GUI 环境交互的成本。采用 TD 学习和微调 VLM,Digi-Q 在 AITW 上表现出稳定性和高效性,通过离线训练实现策略优化,避免了在线数据收集的方差问题。
完成下面两步后,将自动完成登录并继续当前操作。