联汇科技推出全球首个万物具身智能体平台OmAgent,旨在将AI智能体从数字空间引入物理世界。该平台支持多模态感知,具备3D空间感知、时空记忆和智能决策能力,实现跨设备协同。用户可通过自然语言指令操作智能终端,提升人机协作效率,已在多个行业应用,推动智能化进程。
联汇科技发布了第二代多模态智能体OmAgent,感知模块升级,速度提高20倍以上。思考决策能力提升,发布了第二代思考大模型OmChat V2,支持多种复杂输入。OmAgent框架全面开源,构建开放、丰富的智能体生态。发布了空间运营智能体和知识服务智能体,为行业用户提供助手。
本文介绍了一种基于多模态代理和大型语言模型的视频理解系统,旨在解决长期时间关系问题。该系统在EgoSchema和NExT-QA测试中表现优异,显著提升了视频理解的准确性和效率。同时,研究提出了新的数据结构和方法,促进多模态数据的融合与处理,为视频内容分析和问答任务提供了新思路。
完成下面两步后,将自动完成登录并继续当前操作。