使用运动块探索 Vision Transformers 用于 3D 人体动作语言模型
原文中文,约400字,阅读约需1分钟。发表于: 。构建 3D 人体动作与语言之间的跨模态潜空间对于获取大规模高质量的人体动作数据至关重要,然而,与图像数据的丰富相比,动作数据的稀缺限制了现有动作语言模型的性能,为了解决这个问题,我们介绍了 “动作补丁” 的新表示方法,并通过迁移学习,提出使用视觉变换器(ViT)作为动作编码器,旨在从图像域中提取有用的知识并应用于动作域,我们发现通过使用训练 2D 图像数据获得的 ViT...
构建3D人体动作与语言之间的跨模态潜空间对于获取大规模高质量的人体动作数据至关重要。通过使用动作补丁和视觉变换器(ViT)的联合方法,可以提高动作分析的性能,并在文本到动作检索以及其他任务中取得最先进的性能。