小红花·文摘

大型语言模型（LLMs）生成文本时存在可控性问题，可能产生刻板立场。使用人类反馈强化学习（RLHF）微调的模型更具可控性，但角色观点较少多样化。评估模型在开放式文本生成中的重要性揭示了新的观点偏见。