KDnuggets ·

我如何利用一个混乱的DoorDash数据集构建数据清理管道

💡 原文英文，约1200词，阅读约需5分钟。

📝

内容提要

根据CrowdFlower的调查，数据科学家花60%的时间在数据整理和清理上。本文介绍了如何利用DoorDash的近20万条食品配送记录构建数据清理管道，处理缺失值和数据类型问题，为后续分析做好准备。

🎯

关键要点

根据CrowdFlower的调查，数据科学家花60%的时间在数据整理和清理上。
本文介绍了如何利用DoorDash的近20万条食品配送记录构建数据清理管道。
数据集包含多个特征，如配送时间、总物品数和商店类别。
目标是开发一个模型来预测食品配送的总时长，但本文只关注数据清理。
数据清理管道的主要步骤包括时间戳格式修正、缺失值处理和无关特征删除。
需要将created_at和actual_delivery_time列的数据类型转换为datetime格式。
store_primary_category列缺失值较多，因此优先进行清理。
使用众数填充store_primary_category的缺失值，以提高数据完整性。
在处理完store_primary_category后，仍需检查其他列的缺失值。
可以选择填充缺失值或直接删除含有缺失值的行。
使用dropna()方法删除剩余的NaN值，确保每列的非空值数量一致。
清理后的数据集可以进行探索性数据分析、特征工程和模型构建。
本文展示了如何处理真实世界数据集中的常见数据质量问题。

❓

延伸问答

数据科学家在数据整理和清理上花费多少时间？

根据CrowdFlower的调查，数据科学家花60%的时间在数据整理和清理上。

如何处理DoorDash数据集中的缺失值？

可以使用众数填充缺失值，或者选择删除含有缺失值的行。

在构建数据清理管道时，主要步骤有哪些？

主要步骤包括时间戳格式修正、缺失值处理和无关特征删除。

如何将时间戳列的数据类型转换为datetime格式？

可以使用pandas库中的to_datetime函数进行转换。

store_primary_category列缺失值较多，如何优先处理？

可以使用众数填充store_primary_category的缺失值，以提高数据完整性。

清理后的数据集可以进行哪些后续分析？

可以进行探索性数据分析、特征工程和模型构建。

🏷️

继续阅读

Hermes Curator发布：AI自动合并清理技能，每周优化代理效率
Hermes Curator是Hermes Agent内置的自动技能管理系统，每周运行一次，追踪技能使用情况，自动合并或清理冗余技能，帮助用户整理技能库，...
本地可跑的隐私检测模型：Privacy Filter 低成本实现高质量 PII 过滤；硬核开源！涵盖超 8 万场比赛的 Transfermarkt 结构化足球数据集
Privacy Filter 是 OpenAI 开源的双向标记分类模型，专门用于检测和屏蔽文本中的个人身份信息。该模型基于小型预训练架构，采用高效的片段解码方式。
Zed 1.0协议风波：你的代码被用来做训练数据
Zed 1.0协议引发了开发者对数据使用权和隐私的担忧。模糊的条款导致用户误解，认为自己的代码可能被滥用。AI补全功能需要访问用户代码，可能导致数据外流。...
GitHub Copilot CLI 入门：交互模式与非交互模式
本文介绍了使用GitHub Copilot CLI创建的项目，包括表情符号列表生成器和个人组织指挥中心。此外，还提到了一款名为GitHub Secure ...
世界最差程序员变得主动：构建一个破解排行榜的AI
一位自称“世界最差程序员”的新手，通过AI工具学习编程，成功创建了一个连接公司知识库的代理，帮助他在内部排行榜上获得第一名。尽管编程仍然困难，但这个项目让...
配备谷歌内置的汽车将因Gemini而变得更智能
Gemini是谷歌助手的升级版，已在配备谷歌内置的汽车中推出。用户可以通过自然对话获取信息、规划行程、管理消息和控制车辆功能。Gemini支持实时更新，帮...