5个实用的Python脚本用于自动化数据质量检查
💡
原文英文,约100词,阅读约需1分钟。
📝
内容提要
该脚本通过哈希精确匹配完全重复项,并利用Levenshtein距离进行模糊匹配,支持指定关键列进行部分匹配,生成相似度得分的重复集群,导出详细报告并提供去重建议。
🎯
关键要点
- 该脚本通过哈希精确匹配完全重复项。
- 利用Levenshtein距离进行模糊匹配。
- 支持指定关键列进行部分匹配。
- 生成相似度得分的重复集群。
- 导出详细报告并提供去重建议。
➡️