InternVLA-A1——面向场景理解、未来状态生成、动作执行的一体化框架:融合VLM的语义理解与世界模型的未来动态预测

📝

内容提要

InternVLA-A1。该模型采用统一的 Mixture-of-Transformers 架构,协同三个专家模块,分别负责场景理解、视觉前瞻生成和动作执行。这些组件通过统一的掩码自注意力机制实现无缝交互

🏷️

标签

➡️

继续阅读