联汇科技推出全球首个万物具身智能体平台OmAgent,旨在将AI智能体从数字空间引入物理世界。该平台支持多模态感知,具备3D空间感知、时空记忆和智能决策能力,实现跨设备协同。用户可通过自然语言指令操作智能终端,提升人机协作效率,已在多个行业应用,推动智能化进程。
联汇科技发布了第二代多模态智能体OmAgent,感知模块升级,速度提高20倍以上。思考决策能力提升,发布了第二代思考大模型OmChat V2,支持多种复杂输入。OmAgent框架全面开源,构建开放、丰富的智能体生态。发布了空间运营智能体和知识服务智能体,为行业用户提供助手。
基于多模态大型语言模型(MLLMs)的进展引起了对基于 LLM 的自动驾驶代理的兴趣。研究提出了一个全面框架,用于代理模型和 3D 驾驶任务之间的强力对齐。提出了 OmniDrive-nuScenes,一个新的视觉问答数据集,挑战模型在真实的 3D 情境中的全面视觉问答任务。研究结果显示了所提出的架构的有效性以及 VQA 任务对于复杂 3D 场景中的推理和规划的重要性。
完成下面两步后,将自动完成登录并继续当前操作。