小红花·文摘

本文探讨了大型语言模型（LLMs）在对齐和道德决策中的挑战，强调人类反馈的重要性。研究发现，专有模型倾向于功利主义，而开源模型更符合价值伦理。GreedLlama案例表明，模型在道德决策中偏向利润，呼吁在AI开发中整合更广泛的道德价值。研究还提出了评估LLMs可信度的关键维度，并建议在应用中考虑道德因素，以确保符合人类意图。