自动 FP:针对表格数据的自动特征预处理的实验研究
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
DiffPrep是一种自动搜索适用于给定表格数据集和可微分机器学习模型的数据预处理流水线的方法。通过将搜索空间转化为连续、可微分的空间来高效求解,只需训练一次机器学习模型即可进行流水线搜索。实验结果表明,DiffPrep在18个真实数据集中有15个取得了最佳的测试准确率,并将模型的测试准确率提高了多达6.6个百分点。
🎯
关键要点
- DiffPrep是一种自动搜索数据预处理流水线的方法。
- 该方法旨在最大化机器学习模型的性能。
- 将数据预处理流水线搜索问题形式化为双层优化问题。
- 通过将离散、非可微分的搜索空间转化为连续、可微分的空间来高效求解。
- 只需训练一次机器学习模型即可进行流水线搜索。
- 实验结果显示,DiffPrep在18个真实数据集中有15个取得最佳测试准确率。
- DiffPrep将模型的测试准确率提高了多达6.6个百分点。
➡️