小红花·文摘

本文介绍了MobileAgentBench、CityBench和TaskBench等基准测试工具的开发，旨在评估大型语言模型在移动平台、城市领域和任务自动化中的性能。研究强调了标准化评估的重要性，并提出了针对家庭服务和数学能力的基准测试，以推动语言模型的进步和应用。