本研究提出WebRL框架,解决了现有LLM网络代理对昂贵API的依赖及决策能力不足的问题。通过自我进化的在线课程,WebRL有效应对训练任务匮乏的挑战,显著提升开放模型在网络任务中的表现。
完成下面两步后,将自动完成登录并继续当前操作。