Meta的研究揭示了强化学习(RL)训练中参数更新稀疏的现象,并提出了三种理论来解释其机制。尽管RL训练显著提升性能,但仅有少量参数被修改,主要由于KL锚定、模型几何和精度过滤等因素。研究表明,RL与监督微调(SFT)在参数优化区域存在显著差异,为RL训练算法设计提供了新思路。
该研究提出了一种名为CorrespondentDream的方法,通过利用扩散U-Net的无注释交叉视图对应关系,为NeRF优化过程提供额外的3D先验。研究发现这些对应关系与人类感知力一致,能够生成更一致的NeRF模型几何,提高3D保真度。通过比较性定性结果和用户研究,证明了该方法的有效性。
完成下面两步后,将自动完成登录并继续当前操作。