小红花·文摘

商汤科技开源的SenseNova-SI-1.3在空间智能任务中表现优异，综合评分超过Gemini-3-Pro，尤其在视角转换等高难度任务中展现出更高的准确性。该模型通过重组多视角数据，提升了空间理解能力，克服了传统模型的不足。

商汤开源SenseNova-SI-1.3，八大空间智能榜单综合评分登顶

量子位 ·

本研究建立了“PoseTrack”标准，旨在通过视频实现多人姿势估计和关节跟踪。研究提出了轻量化关键点估计、3D运动重建和交互对象跟踪等多种方法，利用RGB视频和多视角数据集，提高了姿势重建的准确性和鲁棒性，推动了相关领域的发展。

InterTrack：无对象模板的人体与物体交互跟踪

BriefGPT - AI 论文速递 ·

本文介绍了一种大规模重建模型（LRM），该模型能够在5秒内从单个图像预测3D模型。LRM基于transformer架构，拥有5亿个参数，能够直接预测神经辐射场（NeRF）。通过在约100万个对象的多视图数据上训练，模型展现出强大的通用性，生成高质量的3D重建结果。此外，提出的多视角大型重建模型（M-LRM）和Human-LRM模型进一步提升了重建质量和适应性，尤其在复杂场景中表现优异。

Real3D：用真实世界图像扩展大型重建模型

BriefGPT - AI 论文速递 ·