内容提要
根据CrowdFlower的调查,数据科学家花60%的时间在数据整理和清理上。本文介绍了如何利用DoorDash的近20万条食品配送记录构建数据清理管道,处理缺失值和数据类型问题,为后续分析做好准备。
关键要点
-
根据CrowdFlower的调查,数据科学家花60%的时间在数据整理和清理上。
-
本文介绍了如何利用DoorDash的近20万条食品配送记录构建数据清理管道。
-
数据集包含多个特征,如配送时间、总物品数和商店类别。
-
目标是开发一个模型来预测食品配送的总时长,但本文只关注数据清理。
-
数据清理管道的主要步骤包括时间戳格式修正、缺失值处理和无关特征删除。
-
需要将created_at和actual_delivery_time列的数据类型转换为datetime格式。
-
store_primary_category列缺失值较多,因此优先进行清理。
-
使用众数填充store_primary_category的缺失值,以提高数据完整性。
-
在处理完store_primary_category后,仍需检查其他列的缺失值。
-
可以选择填充缺失值或直接删除含有缺失值的行。
-
使用dropna()方法删除剩余的NaN值,确保每列的非空值数量一致。
-
清理后的数据集可以进行探索性数据分析、特征工程和模型构建。
-
本文展示了如何处理真实世界数据集中的常见数据质量问题。
延伸问答
数据科学家在数据整理和清理上花费多少时间?
根据CrowdFlower的调查,数据科学家花60%的时间在数据整理和清理上。
如何处理DoorDash数据集中的缺失值?
可以使用众数填充缺失值,或者选择删除含有缺失值的行。
在构建数据清理管道时,主要步骤有哪些?
主要步骤包括时间戳格式修正、缺失值处理和无关特征删除。
如何将时间戳列的数据类型转换为datetime格式?
可以使用pandas库中的to_datetime函数进行转换。
store_primary_category列缺失值较多,如何优先处理?
可以使用众数填充store_primary_category的缺失值,以提高数据完整性。
清理后的数据集可以进行哪些后续分析?
可以进行探索性数据分析、特征工程和模型构建。