💡
原文中文,约5800字,阅读约需14分钟。
📝
内容提要
本文介绍了作者在机器学习分类算法大赛中的经验,通过构建67个特征和多次参数调优,最终得分为0.6925。文章重点介绍了特征构建和数据处理的方法,并提供了代码实现。作者选择了LightGBM模型,并使用网格搜索5折交叉验证来调整参数,最终使用所有训练数据进行训练并提交预测结果。
🎯
关键要点
- 作者在机器学习分类算法大赛中得分0.6925,构建了67个特征并进行了多次参数调优。
- 比赛为二分类任务,首先需要构建模型指标体系,然后处理数据,最后进行建模。
- 数据和特征决定机器学习的上限,模型和算法只是逼近这个上限。
- 特征构建需要结合业务分析,考虑用户购买能力、偏好和商家受欢迎程度等因素。
- 特征构建的基础数据包括用户Id、商家Id、年龄和性别,用户和商家的行为数据需要分组统计。
- 数据处理包括根据用户Id和商家Id分组统计相关特征,并拼接到训练数据上。
- 作者提供了数据处理的具体代码,包括用户与商家的交互数据统计。
- 模型构建相对简单,选择LightGBM模型并使用网格搜索5折交叉验证调整参数。
- 最终模型使用所有训练数据进行训练,预测结果提交时得分略低于训练时的AUC分数。
🏷️
标签
➡️