基于物体中心体素化和神经渲染的动态场景理解
💡
原文中文,约400字,阅读约需1分钟。
📝
内容提要
我们提出了DynaVol-S,一个三维生成模型,能够在可微分的体素渲染框架中实现基于物体的学习。通过体素化物体中心来捕捉场景的三维特性,并通过反向渲染管道中的组合NeRF来优化这些体素特征。我们的方法整合二维语义特征,创建三维语义网格,通过多个解耦的体素网格来表示场景。DynaVol-S在动态场景的新视图合成和无监督分解任务中明显优于现有模型,通过同时考虑几何结构和语义特征,它有效地应对复杂物体交互的实际场景。此外,训练完成后,这些有明确意义的体素特征还使得我们能够实现2D场景分解方法无法实现的额外功能,比如通过编辑几何形状或操纵物体的运动轨迹来生成新的场景。
🎯
关键要点
-
提出了DynaVol-S,一个三维生成模型,能够在可微分的体素渲染框架中实现基于物体的学习。
-
通过体素化物体中心捕捉场景的三维特性,并通过反向渲染管道中的组合NeRF优化这些体素特征。
-
整合二维语义特征,创建三维语义网格,通过多个解耦的体素网格表示场景。
-
DynaVol-S在动态场景的新视图合成和无监督分解任务中明显优于现有模型。
-
通过同时考虑几何结构和语义特征,有效应对复杂物体交互的实际场景。
-
训练完成后,明确意义的体素特征使得实现2D场景分解方法无法实现的额外功能成为可能,例如编辑几何形状或操纵物体的运动轨迹生成新场景。
➡️