RAD-NeRF数字人模型训练详解

💡 原文中文,约4000字,阅读约需10分钟。
📝

内容提要

本文详细介绍了RAD-NeRF模型的训练过程,包括系统环境介绍、练习环境建立和完整练习流程。练习需求CUDA和至少24G的GPU显存。

🎯

关键要点

  • RAD-NeRF 是一个优秀的数字人模型,发布时达到SOTA。
  • 本文详细介绍了 RAD-NeRF 模型的训练过程,包括系统环境、练习环境建立和完整流程。
  • 训练需要使用 CUDA,GPU 显存至少为 24G,峰值超过 22G。
  • 系统环境为 Ubuntu 22.04、Python 3.10、Pytorch 2.0.1 和 CUDA 11.7。
  • 推荐使用 Anaconda 创建干净的 Python 环境,避免模块版本问题。
  • 训练环境需要安装一些工具和依赖模块,提供了相应的安装指令。
  • 使用 RAD-NeRF 原作者的开源代码进行训练,需修改部分代码以适应模块更新。
  • 需要安装四个扩展模块:freqencoder、gridencoder、shencoder 和 raymarching。
  • 下载数据处理所需的第三方数据,并放置在指定目录下。
  • 训练资料要求为 fps 25,分辨率 512*512 的视频,时长 3~5 分钟。
  • 使用 wav2vec 作为 ASR 模型,提供了从 huggingface 加载模型的方式。
  • 训练分为三个步骤:训练头部、微调嘴唇和训练躯干,需保持路径一致。
  • 训练完成后,推理阶段需要特定的文件,需放置在执行推理所需的路径下。
➡️

继续阅读