The New Stack ·

Magma是微软的基础多模态模型，用于代理AI

💡 原文英文，约1000词，阅读约需4分钟。

📝

内容提要

微软推出的Magma是一个多模态视觉-语言-行动（VLA）模型，旨在提升AI代理在数字和现实世界中的任务执行能力。Magma通过整合视觉、语言和行动推理，能够自主处理复杂任务并控制软件和机器人，且在不同环境中适应新任务的能力优于传统模型。

🎯

🔎

Magma作为多模态视觉-语言-行动模型，能够将视觉、语言和行动推理整合在一起，使得AI代理在面对复杂任务时表现出更高的灵活性和适应性。这种整合能力使得机器人能够在动态环境中自主应对突发情况，提升了其在实际应用中的有效性。

Magma采用了Set-of-Mark和Trace-of-Mark两种注释方法，这为模型提供了更结构化的任务理解方式。这种创新的训练方法不仅提高了模型在不同环境中的适应能力，还增强了其在用户界面导航和机器人操作任务中的表现，显示出其在多模态AI领域的潜力。

与传统的VLA模型相比，Magma在处理意外情况时展现出更高的智能和灵活性。传统模型往往在面对未预见的障碍时表现不佳，而Magma通过整合多种感知能力，能够更像人类一样进行即时决策，从而提高了任务执行的效率。

❓

Magma模型是一种多模态视觉-语言-行动（VLA）模型，旨在提升AI代理在数字和现实世界中的任务执行能力。

Magma通过整合视觉、语言和行动推理，能够自主处理复杂任务并控制软件和机器人。

Magma在适应新任务的能力上优于传统模型，能够在不同环境中表现出显著改进。

Magma采用了Set-of-Mark (SoM) 和 Trace-of-Mark (ToM)两种主要注释方法，以更结构化的方式理解任务。

Magma在UI导航和机器人操作任务中表现出色，超越了开源的OpenVLA模型。

Magma的预训练管道在不同环境中表现出显著改进，能够适应新的任务，提升了模型的通用性。

🏷️