MoEmo 视觉变换器:在 HRI 情感检测中整合交叉注意力和运动向量的 3D 姿势估计
原文中文,约300字,阅读约需1分钟。发表于: 。本研究通过使用 MoEmo(Motion to Emotion),一种基于 3D 人体姿势估计的交叉注意力视觉变换器(ViT),以及基于人类姿势和环境背景的人体运动全身视频和相应情感标签的数据集,有效地利用人类姿势 / 姿态的运动向量和环境背景的特征图之间的微妙连接,实现了机器人系统中的情感检测,优于目前的最先进方法。
该文介绍了一种名为HuMoR的3D人体运动模型,可以鲁棒地估计时间姿态和形状。该模型是一个表达能力强的条件变分自编码器生成模型,可以从模糊的观察中推断出合理的姿态和形状。经过广泛的评估,证明该模型可以推广到多样化的动作和身体形状,并且可以从多种输入模态重建运动。