小红花·文摘

本研究通过OpinionsQA数据集探讨大型语言模型（LLMs）与美国人口观点的一致性，发现存在显著不匹配。研究提出了三层次政策框架，旨在个性化对齐以符合人类偏好，并控制潜在风险。同时，分析了性别和种族偏见对模型性能的影响，强调多语言预训练数据集的重要性，以更好地代表人类经验的多样性。