💡
原文英文,约200词,阅读约需1分钟。
📝
内容提要
本文研究了多模态大型语言模型(MLLMs)在不同动作空间中的有效嵌入,以利用其多模态知识。通过统一架构和动作空间适配器,我们发现连续动作中的学习标记化提供了足够的建模精度,而离散动作与MLLM原生输出对齐效果最佳。研究涵盖了七种动作空间适配器在五个环境中的114个任务。
🎯
关键要点
- 多模态大型语言模型(MLLMs)在多个领域展示了广泛的能力,包括具身人工智能。
- 研究旨在将MLLM有效嵌入不同的具身形式及其相关的动作空间,以利用其多模态知识。
- 通过统一架构和动作空间适配器,研究了多种方法的通用性。
- 对于连续动作,学习标记化提供了足够的建模精度,能在下游任务中取得最佳表现。
- 对于离散动作,将这些动作与MLLM的原生输出标记空间进行语义对齐可获得最佳性能。
- 研究涵盖了七种动作空间适配器在五个环境中的114个任务。
➡️