基于多样配置的移动设备控制代理的基准测试
原文中文,约400字,阅读约需1分钟。发表于: 。通过引入 B-MoCA 基准测试,本研究针对移动设备控制代理开发自主代理,提高用户交互的效率和可访问性。在 Android 操作系统上创建了一个真实的基准测试,定义了 60 项常见日常任务,并通过随机化功能来评估代理的泛化性能。尽管代理们在执行简单任务方面展示出熟练性,但在复杂任务上的低效性凸显了未来研究改进其效果的重要机遇。
大型语言模型在通用软件系统中面临挑战,设计了基准测试工具AndroidArena,发现LLM代理在跨应用程序和遵守约束方面存在困难,提出的探索策略提高了成功率27%。该研究首次揭示了LLM代理的弱点,并提供了未来研究方向。