阿里达摩院开源具身大脑基模:3B激活参数性能超越72B,转身就忘事的机器人有救了
内容提要
阿里达摩院开源了具身大脑基础模型RynnBrain,该模型具备时空记忆和物理空间推理能力,性能超越现有顶尖模型,优化了训练速度和数据处理,提升了机器人在复杂任务中的表现,推动了具身智能的发展。
关键要点
-
阿里达摩院开源了具身大脑基础模型RynnBrain,具备时空记忆和物理空间推理能力。
-
RynnBrain在20项具身Benchmark上超越了英伟达和谷歌的顶尖模型,表现出色。
-
RynnBrain-30B-A3B模型仅需3B激活参数,性能超越72B的Pelican-VL模型。
-
RynnBrain采用自研的RynnScale架构,训练速度提升至200%。
-
模型训练使用了超过2000万对高质量语料,增强了具身认知能力。
-
RynnBrain支持多种输入输出形式,具备灵活的多模态输出能力。
-
RynnBrain具备时空记忆,能够在任务中准确找回之前的任务断点。
-
模型采用新的推理策略,结合文本与空间定位,降低幻觉问题。
-
RynnBrain展现了良好的可拓展性,微调后在导航和操作规划任务上表现优异。
-
达摩院采用大小脑分层架构,提升了具身智能的泛化能力和模块化迭代。
-
RynnBrain开源了完整的推理训练代码和评测基准RynnBrain-Bench,降低了行业门槛。
-
达摩院致力于构建具身智能生态,推动行业的良性竞争与发展。
延伸问答
RynnBrain模型的主要特点是什么?
RynnBrain模型具备时空记忆和物理空间推理能力,能够在复杂任务中表现出色,并且在多个Benchmark上超越现有顶尖模型。
RynnBrain是如何提升训练速度的?
RynnBrain采用自研的RynnScale架构,使训练速度提升至200%,从而在同等计算资源下完成更多实验轮次。
RynnBrain在多模态输出方面有哪些能力?
RynnBrain支持多种输入输出形式,能够处理不同分辨率的图片和视频,并输出区域、轨迹、点集等多种具身相关模态。
RynnBrain如何解决具身智能中的幻觉问题?
RynnBrain采用新的推理策略,将文本与空间定位结合,降低了具身任务中常见的幻觉问题。
RynnBrain的开源对行业有什么影响?
RynnBrain的开源降低了研发、系统和协作的门槛,促进了行业的良性竞争与发展。
RynnBrain的时空记忆能力有什么实际应用?
RynnBrain的时空记忆能力使得机器人能够在任务中准确找回之前的任务断点,适用于长程任务的执行。