具身智能实力派!十年多模态打底,世界模型开路,商汤悟能来了

💡 原文中文,约2800字,阅读约需7分钟。
📝

内容提要

商汤科技在WAIC 2025论坛推出了「悟能」具身智能平台,标志其进入具身智能领域。新型多模态模型日日新V6.5提升了推理能力,支持感知、导航和交互。商汤通过世界模型与硬件合作,解决数据稀缺问题,推动具身智能发展,形成自循环生态。

🎯

关键要点

  • 商汤科技在WAIC 2025论坛推出了「悟能」具身智能平台,标志其进入具身智能领域。

  • 新型多模态模型日日新V6.5提升了推理能力,支持感知、导航和交互。

  • 日日新6.5采用图文交错思维链,推理精度显著提升,性价比提高了5倍。

  • 商汤的多模态技术是迈向AGI的必经之路,积累了大量真实数据与世界模型经验。

  • 「开悟」世界模型支持多视角视频生成,能够理解遮挡、时序和运动规律。

  • 商汤的具身智能平台架构包含感知、决策与行动等多个层次,支持多种具身场景。

  • 商汤选择“软硬协同”路线,与多家硬件厂商合作,形成正向的数据飞轮。

  • 论坛上讨论了数据稀缺问题,商汤的世界模型能够批量生成合成任务。

  • 商汤通过第一与第三视角的融合,确保感知与动作的闭环。

  • 商汤正在验证“双轮”路径,推动数据、算法与硬件生态的自循环发展。

延伸问答

商汤科技的「悟能」具身智能平台有什么特点?

「悟能」具身智能平台支持感知、导航和交互等功能,结合了多模态模型和世界模型,形成自循环生态。

日日新V6.5模型相比于前一版本有什么提升?

日日新V6.5在推理精度上显著提升,性价比提高了5倍,推理成本仅为6.0的30%。

商汤如何解决数据稀缺问题?

商汤通过世界模型批量生成合成任务,并与真实数据回流形成闭环,解决数据从量到质的问题。

商汤的多模态技术如何推动AGI的发展?

商汤的多模态技术通过同时处理文本、图像和动作,帮助AI理解和改造物理环境,是迈向AGI的必经之路。

「开悟」世界模型的功能是什么?

「开悟」世界模型支持多视角视频生成,理解遮挡、时序和运动规律,能够生成一致的3D场景。

商汤的具身智能平台如何与硬件协同?

商汤选择“软硬协同”路线,与多家硬件厂商合作,将多模态能力预装进不同形态的机器人中。

➡️

继续阅读