InfoQ ·

Netflix如何在万亿行规模下驱动观众洞察

💡 原文英文，约600词，阅读约需2分钟。

📝

内容提要

Netflix工程师在博客中介绍了如何扩展内部应用Muse，以处理万亿行数据集。Muse帮助创意团队分析受众偏好，查询效率提升约50%。通过使用HyperLogLog和Hollow库，Muse显著减少了查询时间并提高了系统稳定性。此外，Netflix还优化了Druid性能，确保数据准确性，并计划未来支持“直播”和游戏功能。

🎯

关键要点

Netflix工程师在博客中介绍了如何扩展内部应用Muse，以处理万亿行数据集。
Muse帮助创意团队分析受众偏好，支持高级过滤和受众亲和力分析。
Netflix重新设计了数据服务层，将查询延迟减少约50%，同时保持准确性和响应性。
Muse最初是一个基于Spark的仪表板，随着数据量的增长，创意团队提出了更多功能需求。
受众亲和力的算法标签增加了复杂性，挑战了原有架构的极限。
Muse的关键指标包括展示次数和合格播放，计算独特用户的操作成本高。
团队采用HyperLogLog草图来估算独特用户，误差在1%以内。
通过Hollow库，Muse能够直接从内存中提供预计算的聚合数据，查询时间显著减少。
Netflix对Druid进行了调优，改进了数据分割和存储效率，查询时间减少约一半。
为了确保准确性，Netflix并行运行旧的和新的指标堆栈，通过自动化工具验证结果。
未来，Netflix计划扩展Muse以支持“直播”和游戏功能，并改进指标以区分“有效”和“真实”的推广资产。

🔎

延伸解读

数据处理的挑战与解决方案

Netflix在处理万亿行数据时面临着复杂性和性能的双重挑战。为了满足创意团队对高级过滤和受众亲和力分析的需求，Netflix重新设计了数据服务层，成功将查询延迟减少约50%。这种优化不仅提升了系统的响应速度，也确保了数据的准确性。

技术架构的演变

Muse最初是基于Spark的仪表板，随着数据量的增长，Netflix不断扩展其功能。通过引入HyperLogLog和Hollow库，Muse能够高效处理复杂的用户计数和数据聚合，显著提高了查询效率。这一技术演变展示了Netflix在数据驱动决策中的灵活性和前瞻性。

未来发展方向

Netflix计划将Muse扩展至支持‘直播’和游戏功能，这标志着其在数据分析领域的进一步探索。未来的改进将包括更精细的指标，以区分“有效”和“真实”的推广资产，这将有助于提升内容的投放效果和用户体验。

❓

延伸问答

Netflix如何扩展Muse以处理万亿行数据集？

Netflix通过重新设计数据服务层，降低查询延迟约50%，并采用HyperLogLog和Hollow库来提高查询效率和系统稳定性。

Muse在分析受众偏好方面有哪些功能？

Muse支持高级过滤和受众亲和力分析，帮助创意团队了解哪些艺术作品和视频资产更能引起观众共鸣。

Netflix是如何确保数据准确性的？

Netflix通过并行运行旧的和新的指标堆栈，并使用自动化工具验证结果，以确保数据的准确性和可信度。

Muse的查询时间是如何减少的？

Muse的查询时间通过使用Hollow库和HyperLogLog草图显著减少，从几百毫秒降至几十毫秒。

Netflix未来对Muse有哪些计划？

Netflix计划扩展Muse以支持‘直播’和游戏功能，并改进指标以区分‘有效’和‘真实’的推广资产。

Muse面临的主要挑战是什么？

Muse面临的主要挑战包括处理复杂的受众亲和力算法和计算独特用户的高成本。

🏷️