本文介绍了一种自适应的Best-of-N对齐策略,旨在提高语言模型的效率。该方法通过两阶段算法,首先估计每个提示的奖励分布,然后根据这些估计动态分配计算预算。实验证明,该策略在多个数据集上优于均匀分配,且在批量大小增加时表现更佳。
完成下面两步后,将自动完成登录并继续当前操作。