京东科技开发者 ·

数据测试实践：从一个bug开始的大数据引擎兼容性探索

💡 原文中文，约3400字，阅读约需9分钟。

📝

内容提要

通过对京东-我的京东-年度账单bug的排查发现，Hive和Spark引擎之间的语法兼容差异、计算脚本逻辑错误、Hive/Spark与Presto之间的行转列函数及隐式转换也存在差异，Hive的隐式转换更为广泛，而Presto尤其在字符类型的隐式转换中更为严格。

🎯

关键要点

数据测试在大数据时代是组织的重要资产，需关注执行引擎的影响。
京东年度账单帮助用户总结消费情况，挖掘数据价值。
年度账单中的小家电品类报表存在计算结果不一致的缺陷。
缺陷源于Hive和Spark引擎之间的语法兼容差异，导致集合乱序。
使用collect_set()函数导致集合无序，无法正确获取用户最后购买的品类。
Hive引擎能保证集合有序，而Spark引擎无法得到正确结果。
Hive和Spark的行转列函数存在差异，Hive使用lateral VIEW explode()，而Presto使用CROSS JOIN UNNEST。
Hive支持多种隐式转换，而Presto在字符类型转换上更为严格，可能导致类型不一致错误。

🏷️

标签

Hive Presto Spark 大数据语法兼容隐式转换

➡️

继续阅读

AI-DLC 在数据工程中的实践：从分层建模到数据质量的全流程协作
本文将介绍 AI-DLC（AI-Driven Development Life Cycle）——亚马逊云科技于 2025 年提出的一套开发方法论——在数据...
基于SGLang的大模型推理实践——从benchmark方法论到部署方案选型与调优
随着大语言模型（LLM）的快速发展，模型规模不断增大，对推理部署的要求也越来越高。在实际项目中，如何高效地在GPU集群上部署和优化大模型推理，已经成为AI...
WAIC 2026收官｜范式大会亮点集锦，见证AI 2.0从技术突破走向产业实践
America needs to stop getting shocked by Chinese AI
Last week, two Chinese AI companies unveiled models they say can credibly com...
Platform engineering for the agentic enterprise: Managing applications, resources, and AI agents
Platform engineering is evolving Platform engineering has become one of the d...
Why your agent needs access to your documentation
What 1,192 agent conversations taught us about knowledge base search A few mo...