量子位 ·

首个沉浸式体积视频数据集ImViD上线，定义沉浸式媒体新形态丨CVPR‘25 Highlight

💡 原文中文，约3300字，阅读约需8分钟。

📝

内容提要

清华大学与咪咕团队联合推出首个沉浸式体积视频数据集ImViD，突破传统视频限制，实现360°真实场景与6-DoF交互，支持动态捕捉与高保真音视频融合，推动元宇宙与数字孪生技术的发展。

🎯

🔎

ImViD通过360°真实场景和6-DoF交互，解决了传统视频技术在真实感和交互性上的不足。这种技术的突破不仅提升了用户体验，也为未来的虚拟现实应用奠定了基础，尤其是在动态场景的捕捉和重建方面。

ImViD的数据集支持光声同步采集，结合高保真音频与视频，提升了沉浸感。这种多模态数据的融合为影视、教育和医疗等领域的应用提供了新的可能性，尤其是在需要高真实感的场景中。

ImViD的数据集包含多种真实场景，并对外开放，这将推动沉浸式体积视频算法的研究与应用。研究人员和开发者可以利用这些数据进行创新，促进技术的快速发展和应用落地。

❓

ImViD数据集实现360°真实场景与6-DoF交互，支持动态捕捉与高保真音视频融合，包含7大开放世界真实场景。

ImViD通过全视角、大空间、多模态和长时长的方式，突破了传统视频的限制，提升了沉浸感。

ImViD在影视、教育、医疗等领域展现潜力，助力智慧医疗、教育和虚拟演唱会等应用场景。

ImViD采用可移动拍摄车和46台GoPro相机阵列，实现高效的光声场采集，支持静态与动态拍摄。

ImViD的光声场融合重建技术解决了动态场景下的漂移与色差问题，提升了沉浸感。

ImViD将推动长时复杂场景的高效建模，助力智慧医疗、教育等产业落地，并支持移动端交互渲染。

🏷️