利用社会意识对比学习改善对话安全性

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

本研究使用BERT-base、RoBERTa-large和ChatGPT等语言模型分析心理健康支持对话中的不安全回应,并发现ChatGPT无法检测具有详细定义的安全类别。经过微调的模型更适用,为心理健康支持对话的对话安全研究提供了基准。

🎯

关键要点

  • 本研究开发了基于理论和事实的分类法,聚焦于帮助寻求者的积极影响。

  • 创建了具有细粒度标签的基准语料库,用于分析心理健康支持对话中的不安全回应。

  • 使用BERT-base、RoBERTa-large和ChatGPT等语言模型进行分析。

  • 发现ChatGPT在零样本和少样本范式中无法检测详细定义的安全类别。

  • 经过微调的模型更适合用于心理健康支持对话的安全研究。

  • 研究为改善对话代理的设计和部署提供了有价值的基准。

➡️

继续阅读