小红花·文摘

本研究提出WebRL框架，解决了现有LLM网络代理对昂贵API的依赖及决策能力不足的问题。通过自我进化的在线课程，WebRL有效应对训练任务匮乏的挑战，显著提升开放模型在网络任务中的表现。