GPT4Ego: 发挥预训练模型潜力的零样本个人行为识别

💡 原文中文,约500字,阅读约需2分钟。
📝

内容提要

本文提出了一个新颖的问题,即以自身为中心的动作帧生成。通过视觉指导优化自然语言大型模型(VLLM),以充实的动作描述进行微调,解决了现有数据集缺乏详细注释和无法控制动作状态变化的问题。同时,利用来自VLLM的图像和文本嵌入作为附加条件的LEGO动作帧生成方法也被提出。实验证明,该模型相较于先前的图像操作模型有显著改进。

🎯

关键要点

  • 本文提出了以自身为中心的动作帧生成的新颖问题。
  • 目标是根据用户提示和环境输入合成动作帧。
  • 现有数据集缺乏详细的动作执行注释。
  • 基于扩散的图像操作模型无法控制动作状态变化。
  • 通过视觉指导优化自然语言大型模型(VLLM)进行微调。
  • 提出了利用VLLM的图像和文本嵌入的LEGO动作帧生成方法。
  • 在Ego4D和Epic-Kitchens数据集上验证了模型的有效性。
  • 实验证明该模型在定量和定性评估上显著优于先前模型。
  • 进行了详细的消融研究和分析,提供了深入认识。
➡️

继续阅读