MotionLLM:从人体动作和视频中理解人类行为
发表于: 。该研究通过利用大型语言模型(LLMs)的强大功能,深入探讨多模态(即视频和运动模态)人类行为理解。与最近为仅视频或仅动作理解设计的 LLMs 不同,我们认为理解人类行为需要从视频和运动序列(例如 SMPL 序列)中进行联合建模,以有效捕捉微妙的身体部位动态和语义。因此,我们提出了 MotionLLM,一个简单而有效的人类动作理解、字幕生成和推理框架。具体而言,MotionLLM...
该研究通过利用大型语言模型(LLMs)的强大功能,深入探讨多模态(即视频和运动模态)人类行为理解。与最近为仅视频或仅动作理解设计的 LLMs 不同,我们认为理解人类行为需要从视频和运动序列(例如 SMPL 序列)中进行联合建模,以有效捕捉微妙的身体部位动态和语义。因此,我们提出了 MotionLLM,一个简单而有效的人类动作理解、字幕生成和推理框架。具体而言,MotionLLM...