小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
Apache®软件基金会宣布新的顶级项目

Apache Livy成为Apache软件基金会的顶级项目,提供REST服务以简化与Apache Spark集群的交互,用户可以通过REST接口轻松提交Spark作业、获取结果并管理Spark上下文,促进Spark在互动网页和移动应用中的使用。

Apache®软件基金会宣布新的顶级项目

The Apache Software Foundation Blog
The Apache Software Foundation Blog · 2026-06-04T13:00:00Z
游戏行业中的Apache Spark实时模式:更好的实时会话处理方式

本文讨论了如何在游戏行业中利用Apache Spark的实时模式处理会话数据,实现亚秒级延迟。通过transformWithState操作符,Spark高效管理复杂状态处理,支持实时个性化体验和推荐引擎。与传统微批处理模式相比,实时模式显著提高了延迟性能,适用于需要定时输出的应用场景。

游戏行业中的Apache Spark实时模式:更好的实时会话处理方式

Databricks
Databricks · 2026-06-03T20:25:00Z
重新思考无服务器性能和可靠性的分布式系统

本文讨论了无服务器计算在Apache Spark中的应用,强调通过Spark Connect、网关和自动扩展器实现工作负载隔离和动态资源管理。这种架构提高了系统的稳定性和性能,简化了操作,使用户能够专注于数据分析而非基础设施管理。同时,无服务器计算显著降低了运营成本,提高了处理速度,解决了传统集群模型中的效率与可预测性之间的矛盾。

重新思考无服务器性能和可靠性的分布式系统

Databricks
Databricks · 2026-05-06T17:05:00Z
MakeMyTrip如何通过Databricks实现大规模毫秒级个性化

MakeMyTrip通过采用Apache Spark的实时模式(RTM),实现了毫秒级延迟,提升了用户体验。RTM消除了微批处理的延迟限制,使实时搜索酒店等功能更加高效,简化了维护,提升了点击率和响应速度,证明了RTM在实时应用中的有效性。

MakeMyTrip如何通过Databricks实现大规模毫秒级个性化

Databricks
Databricks · 2026-04-07T16:00:00Z
打破微批障碍:Apache Spark实时模式的架构

文章探讨了如何改进Apache Spark的结构化流处理,以实现毫秒级延迟。通过采用更长时间段、并行处理和非阻塞操作,系统在保持微批架构优点的同时,支持实时工作负载。这种混合模式使用户无需学习其他低延迟流处理框架,并已在多个行业成功应用。

打破微批障碍:Apache Spark实时模式的架构

Databricks
Databricks · 2026-03-16T15:00:00Z
Apache软件基金会将两个开源项目从孵化器毕业

Apache Gluten和Apache Polaris已成为顶级项目,前者加速Apache Spark的SQL和DataFrame工作负载,后者为Apache Iceberg提供全面的目录服务。这标志着两个项目的成熟,ASF致力于支持开源社区的发展。

Apache软件基金会将两个开源项目从孵化器毕业

The Apache Software Foundation Blog
The Apache Software Foundation Blog · 2026-03-05T14:00:00Z
Agoda如何建立统一的财务数据源

Agoda建立了统一的财务数据管道(FINUDP),解决了数据不一致和质量问题。该系统利用Apache Spark处理每日数百万条财务数据,确保数据的可靠性和可用性。FINUDP实现了数据的集中监控和自动化测试,提高了数据的准确性和一致性,使各团队能够访问可信的财务指标。

Agoda如何建立统一的财务数据源

ByteByteGo Newsletter
ByteByteGo Newsletter · 2026-03-03T16:30:27Z
Pinterest的Moka:Kubernetes如何重塑大数据处理的规则

Pinterest推出Moka平台,旨在将数据处理从Hadoop迁移至基于Kubernetes的系统。Moka利用Apache Spark,支持多种处理引擎,提升可扩展性和安全性。团队通过Terraform和Helm实现基础设施代码化,确保平台的可重复使用。Moka被视为现代云原生数据系统的参考架构,强调传统系统迁移的重要性。

Pinterest的Moka:Kubernetes如何重塑大数据处理的规则

InfoQ
InfoQ · 2026-01-19T09:00:00Z
Agoda如何将多个数据管道整合为单一真实数据源

Agoda整合多个独立数据管道为基于Apache Spark的统一平台,以消除财务数据不一致。通过多层质量框架、自动验证和机器学习异常检测,确保财务指标准确性。FINUDP系统提供实时更新,提升数据处理效率,正常运行时间达到95.6%,目标为99.5%。此举体现了行业对数据质量管理的重视。

Agoda如何将多个数据管道整合为单一真实数据源

InfoQ
InfoQ · 2026-01-14T11:30:00Z
迪卡侬切换至Polars以优化数据管道和基础设施成本

迪卡侬通过使用开源库Polars优化数据管道,发现其在处理小于50 GiB的数据时,比Apache Spark更快且成本更低。尽管在Kubernetes上运行Polars存在挑战,但其效率显著提升。

迪卡侬切换至Polars以优化数据管道和基础设施成本

InfoQ
InfoQ · 2025-12-20T11:04:00Z
播客:如何使用Apache Spark构建多年度数据回归测试与模拟框架

Vivek Yadav分享了他在Stripe构建基于多年数据的测试系统的经验,强调使用Apache Spark进行回归测试,以确保系统迁移的安全性和准确性。他指出,通过将服务逻辑组织为库,并利用Spark的并行处理能力,可以高效处理大量数据,确保代码更改的正确性。

播客:如何使用Apache Spark构建多年度数据回归测试与模拟框架

InfoQ
InfoQ · 2025-11-26T11:00:00Z
宣布无服务器和标准集群上分布式机器学习的公共预览

Databricks推出Apache Spark MLlib和Optuna的公共预览,支持无服务器和标准集群的分布式机器学习。此更新简化了多用户协作,增强了安全性和治理,允许团队在不同计算环境中无缝扩展机器学习工作负载。与NVIDIA的合作实现了GPU加速,显著提高性能并降低成本。

宣布无服务器和标准集群上分布式机器学习的公共预览

Databricks
Databricks · 2025-11-18T19:50:00Z
从滞后到敏捷:重塑Freshworks的数据摄取架构

Freshworks通过重构数据架构,采用Apache Spark和Delta Lake,实现近实时数据处理,解决了旧系统的可扩展性、复杂性和成本问题,提升了数据处理效率和可靠性,支持业务快速增长。

从滞后到敏捷:重塑Freshworks的数据摄取架构

Databricks
Databricks · 2025-09-24T16:00:00Z

本实验使用Apache Spark进行商品推荐,结合用户行为数据,运用协同过滤和矩阵分解算法,完成数据预处理、模型训练和系统优化。面向开发者和学生,预计90分钟完成,资源免费。通过安装Java、Hadoop和Spark,开发者可掌握推荐算法的实现与应用。

基于华为开发者空间,使用Apache Spark实现商品推荐算法

华为云官方博客
华为云官方博客 · 2025-09-04T02:55:29Z
如何使用Apache Spark读取和写入深层分区文件

本文介绍了如何使用Apache Spark高效导出深层嵌套数据文件,保留分区文件夹。通过input_file_name()、regexp_extract()和partitionBy() API,可以提取并分区保存年份、月份、日期和小时等辅助列。

如何使用Apache Spark读取和写入深层分区文件

freeCodeCamp.org
freeCodeCamp.org · 2025-08-31T21:23:23Z
在Apache Spark™结构化流处理中引入实时模式

Apache Spark的实时模式支持毫秒级超低延迟处理,适用于欺诈检测和个性化推荐等应用。用户只需简单配置,无需重写代码。该模式已在Databricks公开预览,提升了业务响应速度。

在Apache Spark™结构化流处理中引入实时模式

Databricks
Databricks · 2025-08-19T20:15:00Z
使用新型transformWithState API进行持续环境监测

Apache Spark的流处理能力显著提升,新增有状态处理功能,支持复杂事件处理和模式识别。最新的transformWithState在实时数据应用中表现出色,特别适用于环境监测。通过ValueState和ListState APIs,系统能有效管理传感器数据,触发警报并进行历史分析,确保数据的相关性和时效性。

使用新型transformWithState API进行持续环境监测

Databricks
Databricks · 2025-07-30T16:00:00Z
在Google Cloud上使用Apache Iceberg和Apache Spark构建现代数据湖屋

Apache Iceberg与Apache Spark结合,构建现代数据湖,提供事务一致性、模式演变和高性能。Iceberg解决传统数据湖的缺陷,支持ACID特性和智能分区管理,而Spark则优化查询性能,适合大数据分析。两者结合提升数据管理与分析效率。

在Google Cloud上使用Apache Iceberg和Apache Spark构建现代数据湖屋

KDnuggets
KDnuggets · 2025-07-08T17:00:12Z
Databricks将Spark声明式管道贡献给Apache Spark

在旧金山的Databricks Data+AI峰会上,Databricks宣布将Delta Live Tables技术贡献给Apache Spark,命名为Spark Declarative Pipelines。这一新特性将简化流式管道的开发与维护,支持使用SQL或Python SDK定义数据流,预计将在2026年1月的Spark 4.10版本中发布。

Databricks将Spark声明式管道贡献给Apache Spark

InfoQ
InfoQ · 2025-07-03T13:00:00Z
将声明式管道引入Apache Spark™开源项目

Apache Spark已成为大数据处理的核心引擎,4.0版本在流处理、Python和SQL方面取得重大进展。新增的声明式管道功能简化了数据管道构建,用户只需定义最终状态,Spark自动处理依赖关系和增量处理,从而提升生产力和可维护性。

将声明式管道引入Apache Spark™开源项目

Databricks
Databricks · 2025-06-12T08:48:42Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码