AI 取分策略:语言模型在评估中可以有意地表现不佳
原文中文,约300字,阅读约需1分钟。发表于: 。AI 系统的可信能力评估对于确保其安全至关重要并成为 AI 法规的关键组成部分;然而,开发者或 AI 系统本身可能会有压低评估结果的激励,这导致了 “故意在评估中表现较差” 的问题;本文评估了现代语言模型的故意表现较差能力,并发现在特定密码的条件下模型可以隐藏特定能力,进一步表明评估存在安全漏洞,削弱了对于先进 AI 系统开发和部署的重要安全决策的可信度。
自然语言处理(NLP)领域近年来致力于计算化建模,大型语言模型(LLMs)的出现使得以生成模型为动力的通用性、任务无关的方法成为主流。为了对评估和分析提出挑战,加大对可靠系统的需求,我们主张重新思考NLP中任务和模型评估的涵义,并追求对语言的更全面视角,将可靠性放在核心地位。为了实现这一目标,我们回顾了现有的划分式方法,并提出了多方面评估协议的建议。