开发者在使用大型语言模型(LLMs)时,常赋予其人格特征,如Birgitta称其为“顽固的驴子”,Kent Beck比喻为“精灵”。使用LLMs需投入大量精力,成功体验常是错觉,可能导致挫败感。最近,我认为LLM的另一种人格是查尔斯·狄更斯小说中的乌里亚·希普,表面谦卑却暗藏恶意。
本研究探讨社交媒体上误导信息传播与个体人格特征的关系,发现具分析和批判性特质的人在讨论中更有效,非对抗性说服策略能够成功纠正误导信息,为干预措施提供了重要见解。
本研究提出了ToMATO基准,以解决现有心智理论测试的不足。通过角色扮演生成对话,捕捉多种心智状态,发现虚假信念的生成普遍存在,并且人格特征显著影响模型表现。
本文介绍了Machine Personality Inventory(MPI)数据集,旨在评估预训练语言模型的人格特征。研究表明,语言模型中存在人格,并提出了Chain Prompting方法以诱导特定人格。通过实验探讨了大型语言模型在对话中的人格推断能力及其应用前景,强调个性化训练的重要性和伦理挑战。
该论文探讨了大型语言模型(LLMs)的人格特征及其可控性,提出了Machine Personality Inventory(MPI)数据集以评估模型的人格。研究发现,LLMs在文本生成中展现出与人类相似的人格特质,并通过角色扮演提示展示适应性。同时,研究强调了对LLMs测试有效性的关注,揭示了其多样化的个性特征。
本文探讨了小型角色扮演语言模型的提升,展示了基于大型语言模型的角色扮演代理(RPLA)的发展与应用。研究表明,改进后的模型在角色对齐能力上表现出更好的泛化性,并提出了多种评估方法和未来研究方向,强调了角色扮演聊天机器人的人格特征与人类感知的匹配率。
本文探讨了大型语言模型(LLMs)的人格特征与安全性之间的关系。研究表明,LLMs的个性特征影响其在隐私和公平性方面的安全能力,不同个性特征的LLMs对越狱的易感性也有所不同。个性化偏差会影响模型性能。研究还提出使用MBTI人格评估工具来评估LLMs的可行性,并探讨减轻个性化偏差的方法。
本文研究了大型语言模型(LLMs)的人格特征,发现其在不同情境下表现出显著差异。通过心理测量测试,评估了LLMs的个性可靠性与有效性,指出现有自我评估测试存在偏差,无法准确测量机器的人格。研究强调需谨慎对待LLMs的个性定义与评估方法。
该研究提出了PsychoBench框架,用于评估大型语言模型(LLMs)在心理学领域的人格特征、动机和情绪能力。研究发现,当前模型在心理健康评估中有显著改进空间,并强调了标准化方法和伦理指南的必要性。此外,研究引入了SciBench和JEEBench等基准,系统检验LLMs在科学和数学问题解决中的能力,结果显示表现不佳,需进一步优化。
完成下面两步后,将自动完成登录并继续当前操作。