机器之心 ·

推理延展到真实物理世界，英伟达Cosmos-Reason1：8B具身推理表现超过OpenAI ο1

💡 原文中文，约4400字，阅读约需11分钟。

📝

内容提要

英伟达推出的Cosmos-Reason1模型专注于物理常识推理，解决视觉问答中的最佳答案缺失问题。该模型通过多阶段训练显著提升物理推理能力，能够拒绝不明确的选项，适用于自动驾驶等实际场景。

🎯

🔎

在自动驾驶等实际应用中，物理常识的推理能力至关重要。Cosmos-Reason1模型通过拒绝不明确的选项，能够在缺乏最佳答案时做出更合理的判断。这种能力在复杂的现实场景中，尤其是在安全性要求高的任务中，显得尤为重要。

Cosmos-Reason1模型经过视觉预训练、通用SFT、物理AI SFT和物理AI强化学习四个阶段的训练，显著提升了其推理能力。这种多阶段的训练方法不仅增强了模型的物理常识理解，还提高了其在具身推理任务上的表现，展示了系统性训练的重要性。

Cosmos-Reason1采用了仅解码器架构，这种设计使得模型能够更有效地处理多模态输入。通过将视觉信息与文本信息对齐，该架构能够在视觉问答任务中提供更准确的推理结果。这一选择反映了在多模态学习中架构设计对性能的直接影响。

❓

Cosmos-Reason1模型专注于物理常识推理，解决视觉问答中缺失最佳答案的问题。

该模型经过视觉预训练、通用SFT、物理AI SFT和物理AI强化学习四个阶段训练，显著提升了物理推理能力。

模型能够评估选项的可行性，并在不明确时拒绝选择。

Cosmos-Reason1在物理常识表现上超过了OpenAI ο1，尤其是在经过物理AI监督式微调后。

该模型采用仅解码器架构，使用InternViT-300M-V2.5作为视觉编码器，统一处理所有模态。

物理AI强化学习进一步提升了模型在空间、时间和物体持久性推理方面的能力。

🏷️