小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
如何构建开源数据湖以实现批量摄取

云数据分析平台如Databricks、Snowflake和BigQuery简化了数据平台的创建。本文介绍如何在开源数据湖堆栈上设置批量摄取层,确保用户拥有所有组件。重点在于建立可靠的数据摄取流程,使用Apache Airflow调度任务,并结合RustFS、Apache Iceberg和Project Nessie等技术,以实现高效的数据摄取和后续分析,确保数据的可靠性和可扩展性。

如何构建开源数据湖以实现批量摄取

freeCodeCamp.org
freeCodeCamp.org · 2026-04-16T14:26:47Z
如何从Apache Airflow®迁移到Databricks Lakeflow Jobs

本文讨论了将Apache Airflow迁移到Databricks的Lakeflow Jobs,重点在于执行细节和常见模式的转换。提供了迁移指南,包括任务值、触发器和参数化回填的处理。强调了在Lakeflow中使用条件任务和动态任务映射的最佳实践,建议逐步迁移。

如何从Apache Airflow®迁移到Databricks Lakeflow Jobs

Databricks
Databricks · 2026-03-18T14:20:57Z

Apache Airflow 3.0.3版本存在严重安全漏洞(CVE-2025-54831),允许具备读取权限的用户访问敏感连接信息,破坏安全模型。建议用户立即升级至3.0.4或更高版本以修复此问题。

Apache Airflow漏洞致敏感信息泄露:只读用户可获取机密数据

FreeBuf网络安全行业门户
FreeBuf网络安全行业门户 · 2025-09-27T02:35:38Z
人工智能与开源:通过协作扩大Apache Airflow的全球影响力

文章探讨了人工智能在开源项目中的应用,特别是Apache Airflow的多语言翻译。通过“以人为本、AI辅助”的方法,社区成员共同承担翻译责任,利用AI提高效率,同时保持人类参与和质量。这种模式加速了翻译进程,增强了社区合作,展示了AI在开源中的赋能作用。

人工智能与开源:通过协作扩大Apache Airflow的全球影响力

The Apache Software Foundation Blog
The Apache Software Foundation Blog · 2025-07-31T10:48:00Z
APACHE AIRFLOW

Apache Airflow是一个开源的工作流编排工具,用户可以用Python定义任务及其依赖关系。它支持动态生成管道、可扩展架构和内置调度监控,广泛应用于ETL、数据科学和机器学习等领域。Airflow提供了丰富的Web界面,方便用户跟踪任务状态和日志。许多云服务商也提供托管的Airflow服务,以简化部署和维护。

APACHE AIRFLOW

DEV Community
DEV Community · 2025-05-27T15:09:39Z
构建YouTube分析仪表板

在创作者经济中,YouTube频道每周发布大量视频。为帮助创作者分析频道增长、最佳发布时间和热门视频,作者构建了一个数据管道,自动提取、处理和可视化YouTube数据。文章详细介绍了在Azure Ubuntu虚拟机上安装Apache Airflow、Spark、PostgreSQL和Grafana的步骤,以及如何使用Python进行ETL处理和数据可视化。

构建YouTube分析仪表板

DEV Community
DEV Community · 2025-05-02T19:52:40Z
Apache Airflow 3.0:从数据管道到人工智能推理

Apache Airflow 3.0推出了数据管道版本控制、安全增强、远程执行和灵活调度等新功能,支持企业级应用,提升数据管道管理和调试能力,满足机器学习和生成AI需求,推动数据驱动工作流发展。

Apache Airflow 3.0:从数据管道到人工智能推理

The New Stack
The New Stack · 2025-04-28T14:00:42Z
Apache Airflow与MongoDB

本视频教程介绍如何使用Apache Airflow和MongoDB构建自动化ETL管道,适合数据工程师和后端开发者,旨在简化数据处理流程。

Apache Airflow与MongoDB

DEV Community
DEV Community · 2025-04-19T05:11:23Z
数据工程中的Apache Airflow:最佳实践与实际案例

Apache Airflow是一个开源工作流编排工具,最初由Airbnb开发,现为Apache软件基金会的一部分。它允许用户使用Python定义和管理复杂的数据处理任务,支持调度、监控和自动化数据管道,提高数据工程的效率和可靠性。

数据工程中的Apache Airflow:最佳实践与实际案例

DEV Community
DEV Community · 2025-04-14T04:31:14Z
🌿 构建一个稳健的NDVI数据管道:从Google Earth Engine到NetCDF,使用WSL上的Airflow

本文介绍了如何自动化卫星数据工作流程,重点在于监测植被健康。通过构建NDVI自动化管道,详细阐述了从Google Earth Engine下载数据、清理和裁剪栅格、按月聚合、重采样到转换为NetCDF格式的步骤。使用Apache Airflow进行调度和管理,确保流程高效可靠,最终实现了可重复、可扩展的植被分析工作流。

🌿 构建一个稳健的NDVI数据管道:从Google Earth Engine到NetCDF,使用WSL上的Airflow

DEV Community
DEV Community · 2025-04-13T09:10:08Z
使用Airflow和PostgreSQL构建自动化比特币价格ETL管道

本文介绍了如何创建一个自动化ETL管道,从Polygon.io API提取每日比特币价格数据,进行转换,并将数据加载到PostgreSQL数据库中。使用Apache Airflow进行工作流调度,确保每日可靠执行,涵盖了API数据提取、数据转换、数据库集成和云部署等关键数据工程概念。

使用Airflow和PostgreSQL构建自动化比特币价格ETL管道

DEV Community
DEV Community · 2025-03-31T19:07:56Z

Apache Airflow是一个开源平台,用于开发、调度和监控批处理工作流。由Maxime Beauchemin于2014年在Airbnb创建,旨在简化数据管道管理。Airflow的核心是DAG(有向无环图),表示任务及其依赖关系。用户需具备Python知识,安装过程包括设置虚拟环境、初始化数据库和启动Web服务器。Airflow还提供可视化界面,便于监控和故障排除。

现代Airflow实用指南

KDnuggets
KDnuggets · 2025-03-12T14:00:53Z
我如何将每月$10,000的AWS Glue费用降低到$400,使用Airflow

在Vance担任DevOps工程师期间,我们将ETL工作负载从AWS Glue迁移到Apache Airflow,成功将每月费用从$10,000降至$400,节省了96%的成本。通过Terraform和ECS配置,解决了多个挑战,实现了高效的任务调度和执行。

我如何将每月$10,000的AWS Glue费用降低到$400,使用Airflow

DEV Community
DEV Community · 2025-02-15T12:38:50Z
AI正在向开源仓库发送虚假问题

一些开源项目的维护者发现,AI被用于提交虚假的功能请求,导致问题数量激增。Apache Airflow的维护者指出,问题数量几乎翻倍,许多请求毫无意义,浪费了维护者的时间。他们呼吁停止这种行为,警告AI生成的请求可能会导致真实问题被忽视。

AI正在向开源仓库发送虚假问题

The New Stack
The New Stack · 2025-02-03T19:01:42Z
使用Airflow、Docker和Astro构建ETL管道

高效的数据管理是现代分析和决策的基础。本文探讨如何利用Apache Airflow、Docker和Astro构建可扩展的ETL管道,以简化工作流编排、增强可重复性并确保无缝部署。ETL过程包括从多种来源提取数据、转换为一致格式并加载到数据库中。项目通过Airflow自动化工作流,Docker确保环境一致性,Astro简化云部署和监控。

使用Airflow、Docker和Astro构建ETL管道

DEV Community
DEV Community · 2024-12-24T21:04:19Z
优化工作流程效率的顶尖数据管道工具

在大数据时代,企业需要高效的数据管道管理和信息分析。选择合适的数据管道工具可以自动化工作流程,简化复杂性。Apache Airflow、AWS Data Pipeline、Apache Kafka、Google Cloud Dataflow、Talend、Apache NiFi 和 Prefect 是一些顶尖工具,各具特色,满足不同业务需求。

优化工作流程效率的顶尖数据管道工具

DEV Community
DEV Community · 2024-12-16T05:26:57Z
Amazon MWAA 性能优化实践

Amazon MWAA 是 Apache Airflow 的托管服务,旨在简化数据管道的设置与管理。本文讨论了优化 MWAA 性能的最佳实践,包括选择合适的环境类型、提升调度器性能和配置动态伸缩,以增强数据调度的效率和可靠性。

Amazon MWAA 性能优化实践

亚马逊AWS官方博客
亚马逊AWS官方博客 · 2024-11-14T09:57:14Z
确保数据质量:最佳实践与自动化

确保数据的准确性、完整性和可靠性对决策至关重要。通过在数据处理的各个阶段实施质量检查,可以及时发现问题。本文探讨了使用SQL查询进行数据质量检查的最佳实践,并介绍了如何利用Apache Airflow等工具自动化这些检查,以提升数据质量和建立有效的验证框架。

确保数据质量:最佳实践与自动化

DEV Community
DEV Community · 2024-11-07T09:39:36Z
掌握 Apache Airflow 数据工程工作流自动化

Apache Airflow 是一个开源平台,用于自动化数据工程工作流。它通过有向无环图(DAG)定义任务及其依赖关系,支持任务调度和监控,帮助用户创建高效可靠的数据管道。

掌握 Apache Airflow 数据工程工作流自动化

DEV Community
DEV Community · 2024-10-31T06:41:24Z

构建ETL管道如同完成任务,Python提供丰富库简化流程。数据提取用SQLAlchemy、Pandas、Requests;转换用Pandas、Dask、PySpark;加载用SQLAlchemy、Psycopg2、Boto3。Apache Airflow用于任务编排,自动化数据处理,提高ETL效率。

适合ETL管道的最佳Python库:初学者开发者指南

DEV Community
DEV Community · 2024-10-10T00:42:32Z
  • <<
  • <
  • 1 (current)
  • 2
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码