黑暗的崛起:角色扮演对话代理中的安全-效用权衡
📝
内容提要
本研究解决了角色扮演对话代理在角色表现效用与内容安全之间的平衡问题。论文提出了一种新颖的自适应动态多偏好(ADMP)方法,根据风险耦合的程度动态调整安全和效用的偏好,并引入耦合边际采样(CMS)来增强模型处理高风险场景的能力。实验结果表明,该方法在提高安全指标的同时保持了效用。
🏷️
标签
➡️