机器学习数据适用性和性能测试的故障注入测试框架

💡 原文中文,约600字,阅读约需2分钟。
📝

内容提要

本文提出了一种基于故障注入技术的输入数据故障注入测试框架(FIUL-Data),用于测试机器学习模型对多种故意引发的数据故障的弹性。实证评估结果显示,FIUL-Data 框架可以评估机器学习模型的弹性,较大的训练数据集上,机器学习模型表现出更高的弹性,在较小的训练集中梯度提升方法优于支持向量回归。

🎯

关键要点

  • 创建弹性机器学习系统对于确保生产就绪的机器学习系统和获取用户信任至关重要。
  • 输入数据和模型的质量对数据敏感系统的端到端测试成功影响很大。
  • 输入数据的测试方法缺乏系统性,且相较于模型测试较少。
  • 本文提出了一种基于故障注入技术的输入数据故障注入测试框架(FIUL-Data)。
  • FIUL-Data 框架测试机器学习模型对多种故意引发的数据故障的弹性。
  • 数据变异器用于探索机器学习系统的脆弱性,针对不同故障注入效果。
  • 框架设计基于三个主要想法:变异器不是随机的;在某个时刻应用一个数据变异器;事先优化选定的机器学习模型。
  • 使用来自分析化学的数据进行了 FIUL-Data 框架的实证评估。
  • 经验评估分为两个步骤:分析选定机器学习模型对数据变异的响应和对比。
  • 结果显示 FIUL-Data 框架允许评估机器学习模型的弹性。
  • 在大多数实验中,较大的训练数据集上,机器学习模型表现出更高的弹性。
  • 在较小的训练集中,梯度提升方法优于支持向量回归。
  • 均方误差指标在评估模型弹性方面具有较高的敏感性。
➡️

继续阅读