Apple Machine Learning Research ·

将多模态大型语言模型嵌入到动作中

Q: 研究中使用了多少种动作空间适配器？

研究涵盖了七种动作空间适配器。

Q: 研究中涉及了多少个环境和任务？

研究涵盖了五个环境中的114个任务。

💡 原文英文，约200词，阅读约需1分钟。

📝

内容提要

本文研究了多模态大型语言模型（MLLMs）在不同动作空间中的有效嵌入，以利用其多模态知识。通过统一架构和动作空间适配器，我们发现连续动作中的学习标记化提供了足够的建模精度，而离散动作与MLLM原生输出对齐效果最佳。研究涵盖了七种动作空间适配器在五个环境中的114个任务。

🎯

关键要点

多模态大型语言模型（MLLMs）在多个领域展示了广泛的能力，包括具身人工智能。
研究旨在将MLLM有效嵌入不同的具身形式及其相关的动作空间，以利用其多模态知识。
通过统一架构和动作空间适配器，研究了多种方法的通用性。
对于连续动作，学习标记化提供了足够的建模精度，能在下游任务中取得最佳表现。
对于离散动作，将这些动作与MLLM的原生输出标记空间进行语义对齐可获得最佳性能。
研究涵盖了七种动作空间适配器在五个环境中的114个任务。

🔎

延伸解读

多模态大型语言模型的应用前景

多模态大型语言模型（MLLMs）在具身人工智能领域的应用潜力巨大。通过将其嵌入不同的动作空间，研究表明，MLLMs能够有效利用其多模态知识，提升任务执行的精度和效率。这为未来的智能系统设计提供了新的思路，尤其是在需要处理复杂环境和多样化任务的场景中。

连续与离散动作的建模差异

研究指出，连续动作和离散动作在建模时的策略有所不同。对于连续动作，学习标记化能够提供足够的建模精度，而离散动作则需与MLLM的原生输出进行语义对齐。这一发现强调了在设计具身AI系统时，针对不同类型动作采取相应的建模方法的重要性，以确保最佳性能。

动作空间适配器的多样性

本文探讨了七种不同的动作空间适配器在五个环境中的表现，涵盖了114个任务。这种多样性不仅展示了不同适配器的通用性，还为研究人员提供了丰富的实验数据，帮助他们理解在不同环境下如何选择和优化适配器，以实现更好的任务执行效果。

❓

延伸问答

多模态大型语言模型（MLLMs）在什么领域展示了能力？

MLLMs在多个领域展示了广泛的能力，包括具身人工智能。

研究中使用了多少种动作空间适配器？

研究涵盖了七种动作空间适配器。

如何提高连续动作的建模精度？

通过学习标记化可以提高连续动作的建模精度。

离散动作与MLLM的输出如何对齐以获得最佳性能？

离散动作需要与MLLM的原生输出标记空间进行语义对齐。

研究中涉及了多少个环境和任务？