研究提出了一种名为CLIP-Hand3D的3D手势估计器,能够将文本提示与不规则的详细姿势分布连接起来,并通过对姿势标签进行编码,形成相应的文本提示,并从中检索21个手关节的空间分布以形成姿势感知特征。实验结果表明,该模型在几个公开手部基准测试中实现了更快的推断速度和最先进的性能。
完成下面两步后,将自动完成登录并继续当前操作。