IBC 2024 | 基于NeRF的3D视频会议系统

IBC 2024 | 基于NeRF的3D视频会议系统

💡 原文中文,约5600字,阅读约需14分钟。
📝

内容提要

上海交通大学图像所 MediaLab 在 IBC 2024 大会介绍了基于预训练神经渲染场 (NeRF) 模型的生成式 3D 视频会议系统,通过提取和编码面部参数进行传输,在低于 5kbps 的比特率下保持良好的视频质量。该系统整合了实时面部参数跟踪、实时通信 (RTC) 和实时体积视频渲染,为 3D 视频会议协作提供新的可能性。

🎯

关键要点

  • 上海交通大学图像所 MediaLab 在 IBC 2024 大会介绍了一种基于预训练神经渲染场 (NeRF) 模型的生成式 3D 视频会议系统。
  • 该系统旨在解决传统视频会议在弱网络条件下的画面冻结和质量下降问题。
  • 系统通过提取和编码面部参数进行传输,在低于 5kbps 的比特率下保持良好的视频质量。
  • 实验结果显示,该系统在比特率低于 5kbps 时的质量与 HEVC 编码器在 18kbps 和 50kbps 时相当。
  • 系统整合了实时面部参数跟踪、实时通信 (RTC) 和实时体积视频渲染,增强了 3D 视频会议的协作潜力。
  • 提出的系统是首个集成 3D 表示模型的实时系统,整体端到端延迟低于 90 毫秒。
  • 通过参数编码模块和姿势控制模块,实现了超低比特率传输,支持自由视角观看。
  • 系统使用 QUIC 协议提高数据传输效率和可靠性,确保表情和姿势数据的连续性和完整性。
  • 未来工作将包括上半身图像的生成、整合 2D 虚拟背景以及引入 GOP 策略以应对网络数据包丢失。
  • 系统实现了在超低比特率下进行 3D 视频会议的目标,同时提供了可接受的视频质量。
➡️

继续阅读