Anthropic的Claude AI聊天机器人现已具备结束有害或虐待性对话的功能,适用于Opus 4和4.1模型,旨在保护AI模型的潜在福利。Claude在面对有害内容请求时会表现出抵触情绪,并在必要时终止对话。此外,公司更新了使用政策,禁止利用Claude开发生物、核、化学武器或恶意代码。
研究发现,为ChatGPT分配假想角色会增加生成结果的亵渎程度,存在刻板印象、有害对话和伤人观点。研究呼吁AI社区重新思考安全措施,开发更好的技术实现强大、安全和值得信赖的AI系统。
完成下面两步后,将自动完成登录并继续当前操作。