通过 “Shadow Pipelines” 交互式提高机器学习数据准备代码
💡
原文约300字/词,阅读约需1分钟。
📝
内容提要
本文介绍了DataScope系统,用于高效计算ML pipeline中训练样例的Shapley值和数据调试。作者开发了新算法框架并进行了实验,结果显示DataScope比现有方法快四个数量级且同样有效。
🎯
关键要点
- 介绍了名为 DataScope 的系统,能够高效计算 ML pipeline 中每个训练样例的 Shapley 值。
- 展示了 DataScope 在数据调试方面的应用。
- 开发了一种新算法框架,用于计算特定 ML pipeline 族群中 Shapley 值。
- 实验结果表明,DataScope 比现有的基于蒙特卡罗方法的方法快四个数量级。
- DataScope 在数据调试方面同样有效,甚至更加有效。
➡️