评估危险能力的前沿模型
原文中文,约400字,阅读约需1分钟。发表于: 。通过对 Gemini 1.0 模型进行新的 “危险能力” 评估,我们在先前研究的基础上,为了了解新 AI 系统所带来的风险,必须了解它的能力和无能力。我们的评估涵盖四个方面:(1)说服和欺骗;(2)网络安全;(3)自我扩散;以及(4)自我推理。在我们评估的模型中,我们没有发现强大的危险能力的证据,但我们标记了早期的预警信号。我们的目标是推动危险能力评估的严谨科学,为未来模型做好准备。
该研究呼吁在科学领域负责任地开发和使用人工智能,提出了SciGuard系统来控制滥用风险,并提出了SciMT-Safety红队基准评估安全性。强调跨学科合作确保安全和道德使用人工智能模型。希望激发建设性讨论,最大化利益,最小化滥用风险。