实时互动网 ·

IBC 2024 | 基于NeRF的3D视频会议系统

💡 原文中文，约5600字，阅读约需14分钟。

📝

内容提要

上海交通大学图像所 MediaLab 在 IBC 2024 大会介绍了基于预训练神经渲染场 (NeRF) 模型的生成式 3D 视频会议系统，通过提取和编码面部参数进行传输，在低于 5kbps 的比特率下保持良好的视频质量。该系统整合了实时面部参数跟踪、实时通信 (RTC) 和实时体积视频渲染，为 3D 视频会议协作提供新的可能性。

🎯

关键要点

上海交通大学图像所 MediaLab 在 IBC 2024 大会介绍了一种基于预训练神经渲染场 (NeRF) 模型的生成式 3D 视频会议系统。
该系统旨在解决传统视频会议在弱网络条件下的画面冻结和质量下降问题。
系统通过提取和编码面部参数进行传输，在低于 5kbps 的比特率下保持良好的视频质量。
实验结果显示，该系统在比特率低于 5kbps 时的质量与 HEVC 编码器在 18kbps 和 50kbps 时相当。
系统整合了实时面部参数跟踪、实时通信 (RTC) 和实时体积视频渲染，增强了 3D 视频会议的协作潜力。
提出的系统是首个集成 3D 表示模型的实时系统，整体端到端延迟低于 90 毫秒。
通过参数编码模块和姿势控制模块，实现了超低比特率传输，支持自由视角观看。
系统使用 QUIC 协议提高数据传输效率和可靠性，确保表情和姿势数据的连续性和完整性。
未来工作将包括上半身图像的生成、整合 2D 虚拟背景以及引入 GOP 策略以应对网络数据包丢失。
系统实现了在超低比特率下进行 3D 视频会议的目标，同时提供了可接受的视频质量。

❓

延伸问答

基于NeRF的3D视频会议系统有什么优势？

该系统在低于5kbps的比特率下仍能保持良好的视频质量，解决了传统视频会议在弱网络条件下的画面冻结和质量下降问题。

该系统如何实现低比特率传输？

系统通过提取和编码面部参数进行传输，而不是传输完整图像数据，从而显著降低比特率。

实验结果显示该系统的质量如何？

实验表明，该系统在比特率低于5kbps时的质量与HEVC编码器在18kbps和50kbps时相当。

系统的延迟性能如何？

整体端到端延迟低于90毫秒，确保了实时操作的可能性。

该系统支持哪些功能？

系统整合了实时面部参数跟踪、实时通信和实时体积视频渲染，增强了3D视频会议的协作潜力。

未来的工作方向是什么？

未来将包括上半身图像的生成、整合2D虚拟背景，并引入GOP策略以应对网络数据包丢失。

🏷️