关于机器学习分类/预测的初学者问题
原文英文,约200词,阅读约需1分钟。
📝
内容提要
文章讨论了在Google云上构建分类模型时遇到的问题,包括处理缺失数据和解释模型的统计数据。作者尝试了技术设备数据库和信用卡交易数据集。
🎯
关键要点
-
作者是机器学习新手,正在Google云上构建分类模型。
-
目标是预测技术设备是否需要维护,但数据中存在大量缺失值。
-
可用的数据主要是静态技术数据,使用时间信息只能通过其他实体推断。
-
作者考虑构建一个输出布尔值的模型,判断设备是否在一个月内需要维护。
-
作者还尝试了信用卡交易数据集,但对一些技术细节不太理解。
-
Kaggle页面建议使用精确率-召回率曲线下的面积(AUPRC)来衡量不平衡分类的准确性,而混淆矩阵的准确性不具意义。
❓
延伸问答
如何处理机器学习中的缺失数据?
可以通过推断其他实体的信息来处理缺失数据,或者考虑使用数据填补技术。
构建分类模型的目标是什么?
目标是预测技术设备是否在一个月内需要维护。
什么是AUPRC,为什么在不平衡分类中重要?
AUPRC是精确率-召回率曲线下的面积,适合衡量不平衡分类的准确性,因为混淆矩阵的准确性在这种情况下不具意义。
在Google云上构建分类模型的挑战是什么?
主要挑战是处理缺失数据和理解模型的统计数据。
如何判断设备是否需要维护?
可以构建一个输出布尔值的模型,判断设备是否在一个月内需要维护。
作者在尝试哪个数据集进行机器学习?
作者尝试了技术设备数据库和信用卡交易数据集。
🏷️