身临其境:透过视角转换指导大型语言模型减少有害和偏见
原文中文,约300字,阅读约需1分钟。发表于: 。基于社会心理学原理,我们提出了一种名为 {extbf {PeT}} 的新策略,激励大型语言模型(LLMs)整合多种人类视角并自我调节其响应,从而显著减少 LLMs 响应中的有害性(高达 89%)和偏见(高达 73%)。通过对两个商业 LLMs(ChatGPT 和 GLM)以及三个开源 LLMs 进行严格评估和消融研究,研究表明 {extbf {PeT}} 在生成更少有害响应方面优于五个强大的基准模型。
该研究探讨了人们与大型语言模型在多样化环境中的互动,发现毒性内容主要是由人们主动寻求或引发的。研究还发现人类在与机器互动时的思维方式发生了变化。