The Cloudflare Blog ·

每秒超过7亿事件：我们如何处理海量数据

💡 原文英文，约2800词，阅读约需11分钟。

📝

内容提要

Cloudflare每秒处理706M事件，数据管道增长100倍。为应对高数据量，采用下采样技术，确保保留重要信息，并通过适应性采样和置信区间提升分析准确性，优化客户体验。

🎯

关键要点

Cloudflare每秒处理706M事件，数据管道增长100倍。
数据管道在高峰时移动107 GiB/s的压缩数据。
采用下采样技术以控制数据丢失，确保保留重要信息。
Logfwdr通过优先级和公平性管理数据流，优化内存使用。
Logreceiver进行适应性采样，提高小客户的分析准确性。
下采样数据在分析数据库中存储，使用Horvitz-Thompson估计器进行分析。
构建置信区间以评估分析结果的准确性。
发现系统性错误后，通过打乱数据顺序修复了采样偏差。
Cloudflare的分析API支持查询采样数据，并提供置信区间。

❓

延伸问答

Cloudflare每秒处理多少事件？

Cloudflare每秒处理706百万事件。

如何控制数据丢失以保留重要信息？

通过下采样技术控制数据丢失，确保保留重要信息。

Logreceiver的作用是什么？

Logreceiver用于将每个数据流按键分区，以便其他过程更容易消费。

如何提高小客户的分析准确性？

通过Logreceiver进行适应性采样，提高小客户的分析准确性。

什么是Horvitz-Thompson估计器？

Horvitz-Thompson估计器用于根据样本数据推导总体分析结果，并评估结果的准确性。

如何构建置信区间以评估分析结果的准确性？

通过使用Horvitz-Thompson估计器，构建置信区间来评估分析结果的准确性。

🏷️

继续阅读

微软押注企业AI竞赛将依赖数据上下文而非模型能力
微软在Build 2026开发者大会上推出了Microsoft Fabric，旨在解决企业AI中的数据上下文问题。新平台包括HorizonDB数据库、GP...
思科发布统一的WEM套件，用于管理人工和AI联络中心座席
思科推出统一的劳动力互动管理（WEM）套件，整合人工与AI代理的管理，涵盖劳动力管理、质量管理、绩效管理和AI辅助功能，旨在重建联络中心，提升效率与客户体...
第737期：Polars 1.41、电子邮件、优秀文档及更多内容（2026-06-02）
Polars 1.41版本发布，新增快速的parquet元数据解码和嵌套子计划消除等功能。
超越解析X12：弥合医疗收入周期工作流程的差距
现代医疗IT面临数据处理与工作流程之间的差距。Genpact和Databricks开发了一个统一的操作工作台，帮助医疗账单员高效处理索赔。该系统在Data...
Work IQ：为每个代理提供生产就绪的智能
企业智能正在转向以代理为中心的模型，Work IQ 提供智能层，帮助代理访问和处理组织数据，支持高效的多步骤交互，结合聊天、上下文和工具，提升工作效率。同...
DMIT宣布清退TYO EB系列产品(东京) 用户需在6月15日前备份数据和迁移业务
DMIT宣布东京TYO EB系列服务器将于2026年6月15日下线，用户需及时备份数据并迁移业务。为此，DMIT提供了多项补偿措施，包括升级到Pro系列享...