Java的Agent Development Kit 0.2.0版本集成了LangChain4j框架,支持更多大型语言模型,如OpenAI和Mistral。新版本增强了工具能力和代理性能,支持多代理场景下的模型混合,提升了逻辑和内存处理能力。
本研究提出了ScaleTrack框架,旨在解决自动化图形用户界面(GUI)代理在训练中面临的数据不足和历史行为回溯问题。通过整合不同来源的GUI样本和新的训练策略,ScaleTrack显著提升了代理的性能。
本研究提出了一种新方法,通过结合轨迹草图和代理性能设计连续控制机器人的奖励函数,有效解决了奖励不匹配和黑客问题。实验结果显示,该方法在多项任务中的成功率达到70-80%,比传统方法提高了20-30%。
本研究提出了名为STEVE的步骤验证管道,利用GPT-4o验证代理操作的正确性,从而优化代理行为学习。实验结果表明,该方法在复杂实时桌面环境中显著提升了代理的性能和训练效率。
介绍了WebCanvas在线评估框架,用于评估大型语言模型代理在真实网络环境中的表现。通过识别关键节点评估代理性能,并构建Mind2Web-Live数据集进行实验。实验结果显示,配备Memory模块和ReAct推理框架的代理在任务成功率上有显著提升。呼吁科研社区合作推动评估技术创新与完善。
完成下面两步后,将自动完成登录并继续当前操作。