利用社会意识对比学习改善对话安全性
原文中文,约300字,阅读约需1分钟。发表于: 。通过对对话 AI 系统中不安全内容的生成风险进行研究,我们提出了一种双步骤微调过程,利用社交感知的 n 对比损失来集成亲社会行为,并通过使用 Moral Integrity Corpus(MIC)和 ProsocialDialog 等数据集培训一个基础模型,实验证明了我们的方法在生成社交适宜回应方面的有效性。
本研究使用BERT-base、RoBERTa-large和ChatGPT等语言模型分析心理健康支持对话中的不安全回应,并发现ChatGPT无法检测具有详细定义的安全类别。经过微调的模型更适用,为心理健康支持对话的对话安全研究提供了基准。