通过 “Shadow Pipelines” 交互式提高机器学习数据准备代码

💡 原文约300字/词,阅读约需1分钟。
📝

内容提要

本文介绍了DataScope系统,用于高效计算ML pipeline中训练样例的Shapley值和数据调试。作者开发了新算法框架并进行了实验,结果显示DataScope比现有方法快四个数量级且同样有效。

🎯

关键要点

  • 介绍了名为 DataScope 的系统,能够高效计算 ML pipeline 中每个训练样例的 Shapley 值。
  • 展示了 DataScope 在数据调试方面的应用。
  • 开发了一种新算法框架,用于计算特定 ML pipeline 族群中 Shapley 值。
  • 实验结果表明,DataScope 比现有的基于蒙特卡罗方法的方法快四个数量级。
  • DataScope 在数据调试方面同样有效,甚至更加有效。
➡️

继续阅读