将多模态大型语言模型嵌入到动作中

将多模态大型语言模型嵌入到动作中

💡 原文英文,约200词,阅读约需1分钟。
📝

内容提要

本文研究了多模态大型语言模型(MLLMs)在不同动作空间中的有效嵌入,以利用其多模态知识。通过统一架构和动作空间适配器,我们发现连续动作中的学习标记化提供了足够的建模精度,而离散动作与MLLM原生输出对齐效果最佳。研究涵盖了七种动作空间适配器在五个环境中的114个任务。

🎯

关键要点

  • 多模态大型语言模型(MLLMs)在多个领域展示了广泛的能力,包括具身人工智能。
  • 研究旨在将MLLM有效嵌入不同的具身形式及其相关的动作空间,以利用其多模态知识。
  • 通过统一架构和动作空间适配器,研究了多种方法的通用性。
  • 对于连续动作,学习标记化提供了足够的建模精度,能在下游任务中取得最佳表现。
  • 对于离散动作,将这些动作与MLLM的原生输出标记空间进行语义对齐可获得最佳性能。
  • 研究涵盖了七种动作空间适配器在五个环境中的114个任务。
➡️

继续阅读