DEV Community ·

关于机器学习分类/预测的初学者问题

💡 原文英文，约200词，阅读约需1分钟。

📝

内容提要

文章讨论了在Google云上构建分类模型时遇到的问题，包括处理缺失数据和解释模型的统计数据。作者尝试了技术设备数据库和信用卡交易数据集。

🎯

关键要点

作者是机器学习新手，正在Google云上构建分类模型。
目标是预测技术设备是否需要维护，但数据中存在大量缺失值。
可用的数据主要是静态技术数据，使用时间信息只能通过其他实体推断。
作者考虑构建一个输出布尔值的模型，判断设备是否在一个月内需要维护。
作者还尝试了信用卡交易数据集，但对一些技术细节不太理解。
Kaggle页面建议使用精确率-召回率曲线下的面积（AUPRC）来衡量不平衡分类的准确性，而混淆矩阵的准确性不具意义。

❓

延伸问答

如何处理机器学习中的缺失数据？

可以通过推断其他实体的信息来处理缺失数据，或者考虑使用数据填补技术。

构建分类模型的目标是什么？

目标是预测技术设备是否在一个月内需要维护。

什么是AUPRC，为什么在不平衡分类中重要？

AUPRC是精确率-召回率曲线下的面积，适合衡量不平衡分类的准确性，因为混淆矩阵的准确性在这种情况下不具意义。

在Google云上构建分类模型的挑战是什么？

主要挑战是处理缺失数据和理解模型的统计数据。

如何判断设备是否需要维护？

可以构建一个输出布尔值的模型，判断设备是否在一个月内需要维护。

作者在尝试哪个数据集进行机器学习？

作者尝试了技术设备数据库和信用卡交易数据集。

🏷️

标签

Google云分类模型技术设备数据库机器学习统计数据缺失数据

➡️

继续阅读

从《奥德赛》观影聊聊 IMAX 影院的分类
聊聊 IMAX 放映系统的区别及影厅选择策略，帮你选到视效更震撼、更接近导演创作意图的版本。查看全文
重大噩耗！Codex已再次硬重置但从明天开始将重新恢复5小时使用限额
#人工智能重大噩耗！Codex 再次重置付费订阅用户额度，但从明天开始将恢复 5 小时滚动限额机制。此前暂停 5 小时限额是因为很多开发者抱怨 Sol ...
刚过保就鼓包！家用车的电池，扛不住网约车的强度
电池大考，网约车提前交卷。#欢迎关注爱范儿官方微信公众号：爱范儿（微信号：ifanr），更多精彩内容第一时间为您奉上。
车长超 5.3 米！奥迪全新 Q9 海外上市，大六座市场又添「9 系」
「灭霸」来了。#欢迎关注爱范儿官方微信公众号：爱范儿（微信号：ifanr），更多精彩内容第一时间为您奉上。
【Triton 教程】triton_language.exp
Triton 是一种用于并行编程的语言和编译器。它旨在提供一个基于 Python 的编程环境，以高效编写自定义 DNN 计算内核，并能够在现代 GPU 硬...
破坏性更新：MCP协议新版规范取消会话和初始化握手协议核心改为无状态架构
#人工智能重大破坏性更新：A 社发布 MCP 模型上下文协议 2026-07-28 版，取消会话和初始化握手、协议核心改为无状态架构。无状态设计意味着任...