关于机器学习分类/预测的初学者问题

💡 原文英文,约200词,阅读约需1分钟。
📝

内容提要

文章讨论了在Google云上构建分类模型时遇到的问题,包括处理缺失数据和解释模型的统计数据。作者尝试了技术设备数据库和信用卡交易数据集。

🎯

关键要点

  • 作者是机器学习新手,正在Google云上构建分类模型。
  • 目标是预测技术设备是否需要维护,但数据中存在大量缺失值。
  • 可用的数据主要是静态技术数据,使用时间信息只能通过其他实体推断。
  • 作者考虑构建一个输出布尔值的模型,判断设备是否在一个月内需要维护。
  • 作者还尝试了信用卡交易数据集,但对一些技术细节不太理解。
  • Kaggle页面建议使用精确率-召回率曲线下的面积(AUPRC)来衡量不平衡分类的准确性,而混淆矩阵的准确性不具意义。
➡️

继续阅读