Databricks ·

从滞后到敏捷：重塑Freshworks的数据摄取架构

💡 原文英文，约1200词，阅读约需5分钟。

📝

内容提要

Freshworks通过重构数据架构，采用Apache Spark和Delta Lake，实现近实时数据处理，解决了旧系统的可扩展性、复杂性和成本问题，提升了数据处理效率和可靠性，支持业务快速增长。

🎯

关键要点

Freshworks是一家全球软件即服务(SaaS)公司，专注于提供直观的AI驱动商业解决方案。
Freshworks依赖实时数据来支持决策，提升客户和员工体验。
旧的数据架构面临可扩展性、复杂性和成本问题，无法满足快速增长的需求。
新架构采用Apache Spark和Delta Lake，实现近实时数据处理，简化了维护和故障排除。
新架构通过Spark结构化流处理直接从Kafka消费数据，减少了数据移动。
数据处理流程包括高效去重、数据验证和自定义转换，确保数据准确性和成本效率。
数据存储采用Lakehouse架构，利用并行写入和删除向量优化更新性能。
自动扩展功能确保系统动态调整以应对数据量变化，提升性能和成本效率。
架构具备强大的容错能力，确保数据完整性和可用性，即使在高负载情况下也能处理失败记录。
监控系统集成Prometheus、Grafana和Elasticsearch，实现端到端可见性，便于问题追踪和快速响应。
通过简化架构，Freshworks提高了操作效率，增强了团队的自主性和信心。

❓

延伸问答

Freshworks为什么需要重构数据架构？

Freshworks需要重构数据架构是因为旧系统在可扩展性、复杂性和成本方面面临挑战，无法满足快速增长的需求。

新架构采用了哪些技术来实现近实时数据处理？

新架构采用了Apache Spark和Delta Lake，实现近实时数据处理，简化了维护和故障排除。

Freshworks的新数据处理流程有哪些关键步骤？

新数据处理流程包括高效去重、数据验证和自定义转换，确保数据准确性和成本效率。

新架构如何提高数据处理的效率和可靠性？

新架构通过Spark结构化流处理直接从Kafka消费数据，减少了数据移动，提升了处理效率和可靠性。

Freshworks的新架构如何应对数据量变化？

新架构具备自动扩展功能，能够动态调整以应对数据量变化，提升性能和成本效率。

Freshworks如何确保数据的完整性和可用性？

架构具备强大的容错能力，确保数据完整性和可用性，即使在高负载情况下也能处理失败记录。

🏷️

继续阅读

10万引普林斯顿刘壮最新访谈：架构没那么重要，数据才是王道
刘壮教授在访谈中指出，AI领域的最大瓶颈是记忆，而非能力。他认为架构选择不如数据规模和计算能力重要，现有数据集的多样性低于预期。大语言模型在语言空间有世界...
CNCF项目中人工智能的现状：数据的初步分析
CNCF TAG开发者体验小组研究了人工智能对开源开发的影响。调查显示，近一半的参与者在日常工作中使用AI工具，主要用于代码编写、文档改进和代码理解。尽管...
高通的「共享内存架构」，想让 Win 本追上 MacBook Pro
华硕发布灵耀 16 Air 骁龙版，搭载高通骁龙 X2 Elite Extreme 平台，内存封装在 SoC 中，提供228 GB/s的内存带宽。机重1....
不卷参数卷架构，这个开源模型把图像理解和生成统一了
商汤推出了开源图像生成模型SenseNova-U1，具备高效的图文创作能力，支持复杂信息图和连贯的图文输出。其底层架构NEO-unify提升了创作效率。尽...
银河通用LDA定义全域数据利用范式，跨本体世界动作大模型开启具身GPT-2时刻
银河通用推出的LDA-1B模型在具身智能领域实现了数据的统一利用，突破了传统模型的局限。该模型有效整合多种数据源，快速适应不同机器人，降低数据获取成本，推...
优化与架构：了解区别
数据库性能问题分为优化问题和架构问题。优化问题可通过调整配置或添加索引解决，而架构问题会随着数据增长而恶化。对于高容量、追加重的数据，架构不匹配会导致性能...