自然语言处理(NLP)领域近年来致力于计算化建模,大型语言模型(LLMs)的出现使得以生成模型为动力的通用性、任务无关的方法成为主流。为了对评估和分析提出挑战,加大对可靠系统的需求,我们主张重新思考NLP中任务和模型评估的涵义,并追求对语言的更全面视角,将可靠性放在核心地位。为了实现这一目标,我们回顾了现有的划分式方法,并提出了多方面评估协议的建议。
本文讨论了自然语言处理领域中的语言理解能力和大型语言模型的出现对任务和模型评估的挑战,主张重新思考评估的涵义,提出了多方面评估协议的建议。
完成下面两步后,将自动完成登录并继续当前操作。