利用社会意识对比学习改善对话安全性
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
本研究使用BERT-base、RoBERTa-large和ChatGPT等语言模型分析心理健康支持对话中的不安全回应,并发现ChatGPT无法检测具有详细定义的安全类别。经过微调的模型更适用,为心理健康支持对话的对话安全研究提供了基准。
🎯
关键要点
-
本研究开发了基于理论和事实的分类法,聚焦于帮助寻求者的积极影响。
-
创建了具有细粒度标签的基准语料库,用于分析心理健康支持对话中的不安全回应。
-
使用BERT-base、RoBERTa-large和ChatGPT等语言模型进行分析。
-
发现ChatGPT在零样本和少样本范式中无法检测详细定义的安全类别。
-
经过微调的模型更适合用于心理健康支持对话的安全研究。
-
研究为改善对话代理的设计和部署提供了有价值的基准。
➡️