GrounDial: 基于人类规范的安全对话响应生成
💡
原文中文,约400字,阅读约需1分钟。
📝
内容提要
研究者提出了GrounDial,一种基于常识社会规则的对话式人工智能系统,可以解决生成不安全回应的问题。GrounDial采用混合方法,无需微调语言模型,使得回应在定量和定性上都更安全。
🎯
关键要点
- 研究者提出了GrounDial,一种基于常识社会规则的对话式人工智能系统。
- GrounDial旨在解决生成不安全回应的问题。
- 当前对话式人工智能系统生成不安全回应,可能同意冒犯性用户输入或包含有害内容。
- 以前的研究通过微调大型语言模型(LLMs)来缓解毒性,但这种方法成本高昂。
- GrounDial不依赖于微调,而是基于常识社会规则实现回应的安全性。
- GrounDial采用混合方法,包括现场学习和人性化导向解码,使回应在定量和定性上更安全。
➡️