自我对齐:通过上下文学习改善大型语言模型中的文化价值观对齐
原文中文,约300字,阅读约需1分钟。发表于: 。本研究针对大型语言模型(LLMs)与其编码的文化价值观之间的对齐问题,提出了一种利用推理时现有文化价值知识的方法。通过结合上下文学习和人类调查数据,我们展示了可以有效改善五种模型(包括英语为中心的和多语言的)对文化价值的对齐,且该方法在英语以外的测试语言和多元文化国家中同样具有潜在应用价值。
研究发现,大型语言模型在文化一致性方面表现更好,特别是在使用特定文化语言提示和多语言精炼混合体系进行预训练时。引入人类学提示可以增强文化一致性。研究强调了平衡的多语言预训练数据集对于代表人类经验多样性和跨语言传递的影响的必要性。