Apple Machine Learning Research ·

RVPO：通过方差正则化实现风险敏感的对齐

💡 原文英文，约400词，阅读约需2分钟。

📝

内容提要

本文提出了一种风险敏感的奖励方差优化框架（RVPO），旨在解决多目标奖励聚合中的约束忽视问题。RVPO通过惩罚奖励间的方差，优化模型的一致性，从而在医疗和科学推理任务中提高表现。实验结果表明，RVPO在HealthBench上显著优于传统方法，并在保持准确性的同时，避免了多奖励方法的性能下降。

🎯

🔎

RVPO框架通过惩罚奖励间的方差，强调了在多目标奖励聚合中风险敏感性的必要性。这种方法不仅提高了模型的一致性，还有效避免了在追求某一目标时忽视其他重要约束的风险，尤其在医疗和科学推理任务中显得尤为重要。

与传统的奖励聚合方法相比，RVPO在HealthBench上的表现显著提升，表明其在处理多奖励信号时更具优势。传统方法往往容易导致性能下降，而RVPO通过方差正则化有效地减轻了这一问题，保持了模型的准确性。

RVPO的设计特别适用于医疗和科学推理等领域，这些领域对模型的准确性和一致性要求极高。通过优化奖励方差，RVPO能够在复杂任务中提供更可靠的结果，可能会对相关行业的决策过程产生积极影响。

❓

RVPO框架的主要目标是解决多目标奖励聚合中的约束忽视问题，优化模型的一致性。

RVPO通过惩罚奖励间的方差，转变目标为“最大化一致性”。

RVPO在医疗和科学推理任务中显著提高了表现，尤其是在HealthBench上优于传统方法。

RVPO在保持准确性的同时，通过方差正则化减轻了约束忽视问题，从而避免了性能下降。

RVPO在HealthBench上表现显著优于传统方法，并且在多奖励方法中避免了性能下降。

实验结果表明，RVPO在HealthBench上得分为0.261，显著高于GDPO的0.215，且具有竞争力的准确性。

🏷️