小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
MakeMyTrip如何通过Databricks实现大规模毫秒级个性化

MakeMyTrip通过采用Apache Spark的实时模式(RTM),实现了毫秒级延迟,提升了用户体验。RTM消除了微批处理的延迟限制,使实时搜索酒店等功能更加高效,简化了维护,提升了点击率和响应速度,证明了RTM在实时应用中的有效性。

MakeMyTrip如何通过Databricks实现大规模毫秒级个性化

Databricks
Databricks · 2026-04-07T16:00:00Z
打破微批障碍:Apache Spark实时模式的架构

文章探讨了如何改进Apache Spark的结构化流处理,以实现毫秒级延迟。通过采用更长时间段、并行处理和非阻塞操作,系统在保持微批架构优点的同时,支持实时工作负载。这种混合模式使用户无需学习其他低延迟流处理框架,并已在多个行业成功应用。

打破微批障碍:Apache Spark实时模式的架构

Databricks
Databricks · 2026-03-16T15:00:00Z
Apache软件基金会将两个开源项目从孵化器毕业

Apache Gluten和Apache Polaris已成为顶级项目,前者加速Apache Spark的SQL和DataFrame工作负载,后者为Apache Iceberg提供全面的目录服务。这标志着两个项目的成熟,ASF致力于支持开源社区的发展。

Apache软件基金会将两个开源项目从孵化器毕业

The Apache Software Foundation Blog
The Apache Software Foundation Blog · 2026-03-05T14:00:00Z
Agoda如何建立统一的财务数据源

Agoda建立了统一的财务数据管道(FINUDP),解决了数据不一致和质量问题。该系统利用Apache Spark处理每日数百万条财务数据,确保数据的可靠性和可用性。FINUDP实现了数据的集中监控和自动化测试,提高了数据的准确性和一致性,使各团队能够访问可信的财务指标。

Agoda如何建立统一的财务数据源

ByteByteGo Newsletter
ByteByteGo Newsletter · 2026-03-03T16:30:27Z
Pinterest的Moka:Kubernetes如何重塑大数据处理的规则

Pinterest推出Moka平台,旨在将数据处理从Hadoop迁移至基于Kubernetes的系统。Moka利用Apache Spark,支持多种处理引擎,提升可扩展性和安全性。团队通过Terraform和Helm实现基础设施代码化,确保平台的可重复使用。Moka被视为现代云原生数据系统的参考架构,强调传统系统迁移的重要性。

Pinterest的Moka:Kubernetes如何重塑大数据处理的规则

InfoQ
InfoQ · 2026-01-19T09:00:00Z
Agoda如何将多个数据管道整合为单一真实数据源

Agoda整合多个独立数据管道为基于Apache Spark的统一平台,以消除财务数据不一致。通过多层质量框架、自动验证和机器学习异常检测,确保财务指标准确性。FINUDP系统提供实时更新,提升数据处理效率,正常运行时间达到95.6%,目标为99.5%。此举体现了行业对数据质量管理的重视。

Agoda如何将多个数据管道整合为单一真实数据源

InfoQ
InfoQ · 2026-01-14T11:30:00Z
迪卡侬切换至Polars以优化数据管道和基础设施成本

迪卡侬通过使用开源库Polars优化数据管道,发现其在处理小于50 GiB的数据时,比Apache Spark更快且成本更低。尽管在Kubernetes上运行Polars存在挑战,但其效率显著提升。

迪卡侬切换至Polars以优化数据管道和基础设施成本

InfoQ
InfoQ · 2025-12-20T11:04:00Z
播客:如何使用Apache Spark构建多年度数据回归测试与模拟框架

Vivek Yadav分享了他在Stripe构建基于多年数据的测试系统的经验,强调使用Apache Spark进行回归测试,以确保系统迁移的安全性和准确性。他指出,通过将服务逻辑组织为库,并利用Spark的并行处理能力,可以高效处理大量数据,确保代码更改的正确性。

播客:如何使用Apache Spark构建多年度数据回归测试与模拟框架

InfoQ
InfoQ · 2025-11-26T11:00:00Z
宣布无服务器和标准集群上分布式机器学习的公共预览

Databricks推出Apache Spark MLlib和Optuna的公共预览,支持无服务器和标准集群的分布式机器学习。此更新简化了多用户协作,增强了安全性和治理,允许团队在不同计算环境中无缝扩展机器学习工作负载。与NVIDIA的合作实现了GPU加速,显著提高性能并降低成本。

宣布无服务器和标准集群上分布式机器学习的公共预览

Databricks
Databricks · 2025-11-18T19:50:00Z
从滞后到敏捷:重塑Freshworks的数据摄取架构

Freshworks通过重构数据架构,采用Apache Spark和Delta Lake,实现近实时数据处理,解决了旧系统的可扩展性、复杂性和成本问题,提升了数据处理效率和可靠性,支持业务快速增长。

从滞后到敏捷:重塑Freshworks的数据摄取架构

Databricks
Databricks · 2025-09-24T16:00:00Z

本实验使用Apache Spark进行商品推荐,结合用户行为数据,运用协同过滤和矩阵分解算法,完成数据预处理、模型训练和系统优化。面向开发者和学生,预计90分钟完成,资源免费。通过安装Java、Hadoop和Spark,开发者可掌握推荐算法的实现与应用。

基于华为开发者空间,使用Apache Spark实现商品推荐算法

华为云官方博客
华为云官方博客 · 2025-09-04T02:55:29Z
如何使用Apache Spark读取和写入深层分区文件

本文介绍了如何使用Apache Spark高效导出深层嵌套数据文件,保留分区文件夹。通过input_file_name()、regexp_extract()和partitionBy() API,可以提取并分区保存年份、月份、日期和小时等辅助列。

如何使用Apache Spark读取和写入深层分区文件

freeCodeCamp.org
freeCodeCamp.org · 2025-08-31T21:23:23Z
在Apache Spark™结构化流处理中引入实时模式

Apache Spark的实时模式支持毫秒级超低延迟处理,适用于欺诈检测和个性化推荐等应用。用户只需简单配置,无需重写代码。该模式已在Databricks公开预览,提升了业务响应速度。

在Apache Spark™结构化流处理中引入实时模式

Databricks
Databricks · 2025-08-19T20:15:00Z
使用新型transformWithState API进行持续环境监测

Apache Spark的流处理能力显著提升,新增有状态处理功能,支持复杂事件处理和模式识别。最新的transformWithState在实时数据应用中表现出色,特别适用于环境监测。通过ValueState和ListState APIs,系统能有效管理传感器数据,触发警报并进行历史分析,确保数据的相关性和时效性。

使用新型transformWithState API进行持续环境监测

Databricks
Databricks · 2025-07-30T16:00:00Z
在Google Cloud上使用Apache Iceberg和Apache Spark构建现代数据湖屋

Apache Iceberg与Apache Spark结合,构建现代数据湖,提供事务一致性、模式演变和高性能。Iceberg解决传统数据湖的缺陷,支持ACID特性和智能分区管理,而Spark则优化查询性能,适合大数据分析。两者结合提升数据管理与分析效率。

在Google Cloud上使用Apache Iceberg和Apache Spark构建现代数据湖屋

KDnuggets
KDnuggets · 2025-07-08T17:00:12Z
Databricks将Spark声明式管道贡献给Apache Spark

在旧金山的Databricks Data+AI峰会上,Databricks宣布将Delta Live Tables技术贡献给Apache Spark,命名为Spark Declarative Pipelines。这一新特性将简化流式管道的开发与维护,支持使用SQL或Python SDK定义数据流,预计将在2026年1月的Spark 4.10版本中发布。

Databricks将Spark声明式管道贡献给Apache Spark

InfoQ
InfoQ · 2025-07-03T13:00:00Z
将声明式管道引入Apache Spark™开源项目

Apache Spark已成为大数据处理的核心引擎,4.0版本在流处理、Python和SQL方面取得重大进展。新增的声明式管道功能简化了数据管道构建,用户只需定义最终状态,Spark自动处理依赖关系和增量处理,从而提升生产力和可维护性。

将声明式管道引入Apache Spark™开源项目

Databricks
Databricks · 2025-06-12T08:48:42Z
使用Apache Spark实现机器学习管道

机器学习管道将数据转化为预测,Apache Spark简化大数据处理。Spark的MLlib库提供变换器和估计器,帮助构建完整的机器学习流程,包括数据加载、清洗、模型设置与训练,以及模型性能评估,从而帮助企业更有效地利用数据做出决策。

使用Apache Spark实现机器学习管道

KDnuggets
KDnuggets · 2025-06-03T12:00:41Z
介绍 Apache Spark 4.0

Apache Spark 4.0 在分析引擎方面取得显著进展,增强了 SQL 语言、Python 功能和流处理能力,提升用户体验。新增 SQL 用户定义函数、PIPE 语法和多语言支持,以满足现代数据工程的需求。

介绍 Apache Spark 4.0

Databricks
Databricks · 2025-05-28T18:30:00Z
丹尼推荐的2025年数据与AI峰会精彩会议

2025年数据与AI峰会将举行,涵盖700多场会议,聚焦开源与AI的结合,尤其是多模态AI。会议将讨论Apache Spark、Iceberg等技术在实时AI和分析中的应用,以及云原生架构如何降低数据摄取成本。

丹尼推荐的2025年数据与AI峰会精彩会议

Databricks
Databricks · 2025-05-19T07:47:35Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码