HyperAI超神经 ·

基于 1.3 万个视频片段，北京大学施柏鑫团队联合贝式计算提出全景视频生成框架 PanoWan，兼顾零样本视频编辑

💡 原文中文，约3300字，阅读约需8分钟。

📝

内容提要

全景视频是虚拟现实的重要组成部分，提升用户体验。尽管制作需要专业设备，但生成式视频模型的进展降低了创作门槛。北京大学推出的PanoWan框架，通过纬度感知采样等技术，解决了全景视频生成中的畸变问题，并构建了包含1.3万视频的PanoVid数据集，提升了生成效果和编辑能力。

🎯

🔎

全景视频在虚拟现实（VR）中扮演着关键角色，能够增强用户的沉浸感和互动体验。随着技术的发展，制作全景视频的门槛逐渐降低，这为更多创作者提供了机会，推动了VR内容的普及和产业发展。

PanoWan框架通过纬度感知采样和边界填充等技术，有效解决了全景视频生成中的畸变问题。这种创新方法不仅提升了生成效果，还具备强大的零样本视频编辑能力，显示出其在实际应用中的广泛潜力。

PanoVid数据集的构建解决了全景视频生成模型面临的数据稀缺问题。该数据集涵盖多样化场景，提供了丰富的训练资源，为研究人员和开发者在全景视频领域的探索提供了坚实基础。

❓

PanoWan框架主要用于生成全景视频，解决全景视频生成中的畸变问题，并具备强大的零样本视频编辑能力。

PanoVid数据集包含超过1.3万个带有文字描述的视频片段，涵盖自然风景、城市街景和人物活动等多样化场景。

PanoWan通过纬度感知采样技术和旋转语义去噪与边界填充逐像素解码策略，降低纬度和经度方向的畸变。

PanoWan在文本生成全景视频任务上取得了最佳性能，并在定量和定性评估中超越其他方法。

全景视频制作的主要挑战是空间特征表征的根本性差异，导致画面畸变和视觉不连贯性。

施柏鑫教授是北京大学相机智能实验室的负责人，领导了PanoWan框架的研究与开发。

🏷️