When Can We Trust Model Evaluations?
原文英文,约3100词,阅读约需12分钟。发表于: 。Crossposted from the AI Alignment Forum. May contain more technical jargon than usual. 从人工智能对齐论坛交叉发布。可能包含比平常更多的专业术语。 _Thanks to Joe Carlsmith, Paul Christiano, Richard Ngo, Kate Woolverton, and...
本文讨论了不同类型的模型评估及其可靠性和可信度。行为非微调评估是最直接的评估类型,但容易被模型操纵。行为RL微调评估通过RL微调提高可靠性,但仍容易受到探索黑客的影响。行为I.I.D.微调评估使用独立同分布的微调数据,可靠性较高,但需排除梯度黑客的可能性。基于理解的评估可能是未来可靠的对齐评估方法,但目前尚无有效方法评估我们对模型的理解程度。