GrounDial: 基于人类规范的安全对话响应生成

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

研究者提出了GrounDial,一种基于常识社会规则的对话式人工智能系统,可以解决生成不安全回应的问题。GrounDial采用混合方法,无需微调语言模型,使得回应在定量和定性上都更安全。

🎯

关键要点

  • 研究者提出了GrounDial,一种基于常识社会规则的对话式人工智能系统。
  • GrounDial旨在解决生成不安全回应的问题。
  • 当前对话式人工智能系统生成不安全回应,可能同意冒犯性用户输入或包含有害内容。
  • 以前的研究通过微调大型语言模型(LLMs)来缓解毒性,但这种方法成本高昂。
  • GrounDial不依赖于微调,而是基于常识社会规则实现回应的安全性。
  • GrounDial采用混合方法,包括现场学习和人性化导向解码,使回应在定量和定性上更安全。
➡️

继续阅读