京东零售基于Flink的推荐系统智能数据体系 |Flink Forward Asia 峰会实录分享
💡
原文中文,约9100字,阅读约需22分钟。
📝
内容提要
京东推荐系统的数据体系复杂,面临实时与离线数据不一致及数仓模型偏差等挑战。张颖在Flink Forward Asia 2024峰会上分享了基于Flink的推荐系统智能数据体系,涵盖召回、模型和策略模块,强调数据质量控制和校验机制的重要性。
🎯
关键要点
- 京东推荐系统的数据体系复杂,面临实时与离线数据不一致等挑战。
- 张颖在Flink Forward Asia 2024峰会上分享了基于Flink的推荐系统智能数据体系。
- 推荐系统架构主要包括召回、模型和策略模块。
- 召回模块将数据规模从亿级降低至千万级,常见的召回方式有行为召回和搜索词热门召回。
- 推荐系统的数据底层由索引、特征、样本、可解释性内容和指标五部分组成。
- 索引模块为召回服务提供数据支持,分为个性化索引、基础索引和策略索引。
- 样本开发架构分为流式和批式,流式样本用于增量训练,批式样本用于全量训练。
- 离线样本面临冷启动和特征回溯问题,实时样本则面临延时反馈和样本采样选择问题。
- 实时样本架构基于分阶段窗口机制,确保数据拼接的成功率。
- 特征开发架构分为行为接入层、行为补全层和特征挖掘层。
- 可解释性分为排序可解释、模型可解释和流量可解释,重点在于记录推荐系统的各个阶段信息。
- Flink在实时数据处理和特征计算中发挥重要作用,确保数据的高效处理与及时存储。
- 指标体系通过Flink实现实时化,涵盖多种关键指标,如UCTR、UCVR和GMV等。
- 推荐系统的数据一致性和可解释性是优化推荐效果的关键。
➡️