BriefGPT - AI 论文速递 ·

4D 全景场景图生成

💡 原文中文，约1500字，阅读约需4分钟。

📝

内容提要

本文介绍了一种新的全景场景图生成（PVSG）任务，创建了高质量数据集以进行基准测试，并探讨了传统方法与基于Transformer的改进。PVSG要求更精确的像素级分割，以提升场景理解。研究展示了在4D全景分割和视频问答等任务中的优异性能。

🎯

❓

全景场景图生成（PVSG）任务要求更精确的像素级分割，以提升场景理解，涉及视频中的人与物体之间的时间交互。

PVSG数据集包含400个视频，150K帧的全景分割掩码和精细的时间场景图，用于基准测试。

4D-Former方法在4D全景分割任务上取得了最先进的结果，能够为LiDAR序列中的每个点分配语义类别标签。

Mask4D方法通过引入时空实例查询，直接预测语义实例及其时间关联，显著提高了基准模型的性能。

通过优化一组4D基元的方法，近似表示动态场景的底层时空4D体积，并生成多样视角。

该方法将视频帧转成伪-3D视图并保持语义，利用Transformer模型进行推理，表现优异。

🏷️