小红花·文摘

本文探讨了大型语言模型（LLMs）个性化对齐的挑战与风险，提出了三层次政策框架以确保符合人类偏好。研究介绍了OpenAssistant的发布及其优于ChatGPT的表现，强调了人类反馈在模型训练中的重要性，并提出了Contrastive Unlikelihood Training (CUT)框架以改进模型输出。研究还发现模型偏好可被操控，影响评分结果，强调了对齐的重要性。