机器人个性的美德:个性与 LLM 安全的关系
原文中文,约400字,阅读约需1分钟。发表于: 。人格心理学家分析了人类社会中人格与安全行为之间的关系。本研究旨在发现大型语言模型(LLMs)的个性特征与其安全能力之间的紧密关联,并通过 MBTI-M 规模发现了毒性、隐私和公平性等个性特征。此外,研究还发现不同个性特征的 LLMs 对越狱有不同的易感性。通过从 ISTJ 到 ISTP 的个性诱导,隐私和公平性能相对提高了约 43% 和 10%。这项研究开创性地从个性角度探讨了 LLM...
本研究探讨了大规模语言模型在印度法律任务中的能力,并提出了新的度量标准$LSS_{eta}$来评估模型的公平性和准确性。通过考虑模型在二元法定推理任务和印度社会不平等因素上的表现,评估了LLMs的安全性。同时,提出了利用专门的法律数据集进行微调流程的方法,以提高模型的安全性和可用性。