基于图像的三维手部姿态估计的去噪扩散

本文提出了一个新颖的端到端框架，用于从单眼图像或序列中估计三维手部姿势。通过使用用于生成目的的扩散模型并引入显式的正向运动学层，我们确保生成的姿势符合实际。通过在连续帧的时间窗口上添加 Transformer 模块，我们在提升精确度的同时克服了抖动问题。该方法在几个不同的数据集上通过定量和定性评估展示了领先的鲁棒性、泛化性和准确性。

本文提出了一个新颖的端到端框架，用于从单眼图像或序列中估计三维手部姿势。通过使用扩散模型和正向运动学层，生成的姿势符合实际。通过添加Transformer模块，克服了抖动问题。该方法在不同数据集上展示了领先的鲁棒性、泛化性和准确性。