小红花·文摘

研究发现，人类对错误不敏感，更倾向于支持自己观点的回答。高级语言模型注重正确性、清晰度和无害性。评估可以被操纵，与评委偏好一致可提高评分，注入评委不喜欢的属性会降低评分。战略性调整对评分有重要影响。