天猫复购预测-挑战赛——Top 0.5%

天猫复购预测-挑战赛——Top 0.5%

💡 原文中文,约5800字,阅读约需14分钟。
📝

内容提要

本文介绍了作者在机器学习分类算法大赛中的经验,通过构建67个特征和多次参数调优,最终得分为0.6925。文章重点介绍了特征构建和数据处理的方法,并提供了代码实现。作者选择了LightGBM模型,并使用网格搜索5折交叉验证来调整参数,最终使用所有训练数据进行训练并提交预测结果。

🎯

关键要点

  • 作者在机器学习分类算法大赛中得分0.6925,构建了67个特征并进行了多次参数调优。
  • 比赛为二分类任务,首先需要构建模型指标体系,然后处理数据,最后进行建模。
  • 数据和特征决定机器学习的上限,模型和算法只是逼近这个上限。
  • 特征构建需要结合业务分析,考虑用户购买能力、偏好和商家受欢迎程度等因素。
  • 特征构建的基础数据包括用户Id、商家Id、年龄和性别,用户和商家的行为数据需要分组统计。
  • 数据处理包括根据用户Id和商家Id分组统计相关特征,并拼接到训练数据上。
  • 作者提供了数据处理的具体代码,包括用户与商家的交互数据统计。
  • 模型构建相对简单,选择LightGBM模型并使用网格搜索5折交叉验证调整参数。
  • 最终模型使用所有训练数据进行训练,预测结果提交时得分略低于训练时的AUC分数。
➡️

继续阅读