最佳之N是它们中最好的选择吗?推理时间对齐中的覆盖、扩展和最优性

📝

内容提要

本研究解决了推理时间计算对语言模型性能扩展的影响,特别是最佳之N采样可能导致的性能下降问题。通过引入新的算法“推理时间悲观主义”,该研究展示了如何在不确定性面前通过拒绝采样来减轻奖励劫持的影响,从而实现理想的性能扩展。实验结果表明,该算法在多种任务和模型中具有显著的优势。

➡️

继续阅读