2026款Hummer EV将推出“King Crab”功能,提升操控性,后轮转速快于前轮,便于在狭窄空间行驶。现有车主可通过软件更新获取此功能。此外,新款还将推出限量碳纤维版,0-60 mph加速仅需2.8秒。
CRAB是一个跨平台多模态智能体基准测试框架,由CAMEL AI社区开发。它评估多模态语言模型智能体在跨环境任务中的表现,并提供了高效的任务和评估器构建工具。研究团队还开发了一个包含100个任务的跨平台测试数据集CRAB Benchmark-v0。实验结果显示,使用GPT-4o作为推理引擎的单智能体结构具有最高的测试点完成率。该框架为智能体评估提供了全面、灵活和贴近实际的基准测试平台。
大型语言模型在通用软件系统中面临挑战,设计了基准测试工具AndroidArena,发现LLM代理在跨应用程序和约束方面存在困难,提出的探索策略提高了成功率27%。该研究首次揭示了LLM代理的弱点,并提供了未来研究方向。
完成下面两步后,将自动完成登录并继续当前操作。