北京人形开源最新VLM模型,推动具身智能再迈关键一步 !

💡 原文中文,约3400字,阅读约需9分钟。
📝

内容提要

北京人形机器人创新中心于11月13日开源了具身智能VLM模型Pelican-VL 1.0,参数规模为7B和72B,性能超越GPT-5和Google Gemini,成为最强开源多模态大模型。该模型由女性团队主创,采用DPPO训练范式,提升了自我纠错能力,推动机器人在多场景中的应用。

🎯

关键要点

  • 北京人形机器人创新中心于11月13日开源了Pelican-VL 1.0模型,参数规模为7B和72B。
  • Pelican-VL 1.0的性能超越GPT-5和Google Gemini,成为最强开源多模态大模型。
  • 该模型由女性团队主创,体现了女性在科技研发中的重要贡献。
  • Pelican-VL采用DPPO训练范式,提升了自我纠错能力,数据量仅为其他大模型的1/10至1/50。
  • Pelican-VL 1.0能够提升具身智能在多种真实场景中的应用能力。
  • 模型在1000+ A800 GPU集群上训练,单次检查点训练耗费超过50,000 A800 GPU-小时。
  • Pelican-VL通过模仿人类学习方式,不断自我纠错和迭代进步。
  • Pelican-VL在视觉-语言和具身任务上的能力显著提升,能够更准确理解图像和语言指令。
  • Pelican-VL作为VLA系统的认知前端,帮助机器人拆解复杂任务并执行。
  • 北京人形的解法是让VLM和世界模型相互纠偏,提升机器人的决策能力。
  • Pelican-VL的开源为机器人厂商和开发者提供了良好的土壤,加速研发进程。
  • Pelican-VL的开放性和多场景覆盖能力将推动国内形成完善的通用机器人智能平台。
  • Pelican-VL 1.0的开源标志着具身智能进入以数据驱动、开放协同的新阶段。
➡️

继续阅读