本研究探讨了语言模型间KL散度估计的高方差问题,提出了一种Rao-Blackwell化估计器,降低了方差并保持无偏性。实证结果表明,该估计器在情感控制微调中显著提高了KL估计的稳定性。
完成下面两步后,将自动完成登录并继续当前操作。