METAL: 大型语言模型质量分析的变形测试框架
原文中文,约300字,阅读约需1分钟。发表于: 。大型语言模型(LLMs)已经改变了自然语言数据处理的范式。我们提出了一个名为 METAL 的框架,用于通过应用变异测试技术对 LLM 的质量进行系统测试,并引入了新的度量方法来准确评估 Metamorphic Relations(MRs)的有效性,从而有效评估了主要 LLM 任务的关键质量属性并揭示了 LLM 中的质量风险。
该文章介绍了首个多语言语言可接受性基准MELA,并分析了经过精调的XLM-R的权重。结果显示ChatGPT在上下文实例方面表现良好,但仍落后于精调的XLM-R。GPT-4在零-shot设置中与精调的XLM-R性能相当。跨语言和多任务学习实验表明,语言内的训练数据对语言可接受度判断至关重要。文章还引入了冲突权重的概念,可能是跨语言转移困难的潜在指标。