商汤科技开源的SenseNova-SI-1.3在空间智能任务中表现优异,综合评分超过Gemini-3-Pro,尤其在视角转换等高难度任务中展现出更高的准确性。该模型通过重组多视角数据,提升了空间理解能力,克服了传统模型的不足。
本研究建立了“PoseTrack”标准,旨在通过视频实现多人姿势估计和关节跟踪。研究提出了轻量化关键点估计、3D运动重建和交互对象跟踪等多种方法,利用RGB视频和多视角数据集,提高了姿势重建的准确性和鲁棒性,推动了相关领域的发展。
本文介绍了一种大规模重建模型(LRM),该模型能够在5秒内从单个图像预测3D模型。LRM基于transformer架构,拥有5亿个参数,能够直接预测神经辐射场(NeRF)。通过在约100万个对象的多视图数据上训练,模型展现出强大的通用性,生成高质量的3D重建结果。此外,提出的多视角大型重建模型(M-LRM)和Human-LRM模型进一步提升了重建质量和适应性,尤其在复杂场景中表现优异。
完成下面两步后,将自动完成登录并继续当前操作。