小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
数据工程师和数据科学家的AI数据转换指南

AI数据转换利用人工智能和机器学习自动化原始数据的清洗和结构化,提升数据质量和可用性。有效的数据转换确保数据在分析和模型训练前得到清理和规范。ETL和ELT是主要的数据转换模式,其中ELT在云环境中更具可扩展性。最佳实践包括版本控制转换脚本、记录数据清洗规则、自动化测试和早期参与数据科学家。高质量的数据基础和人工审核AI生成的代码是数据驱动组织的关键。

数据工程师和数据科学家的AI数据转换指南

Databricks
Databricks · 2026-04-21T11:39:52Z
开放平台,统一管道:为何在Databricks上使用dbt能够加速数据转型

dbt在Databricks平台上运行,整合数据转型工作流,提供开放存储和统一治理。通过Unity Catalog,团队高效管理数据权限和访问,简化操作复杂性。Databricks的高性能引擎提升ETL工作负载效率,减少手动调优需求,帮助用户专注于构建数据管道。

开放平台,统一管道:为何在Databricks上使用dbt能够加速数据转型

Databricks
Databricks · 2026-04-16T18:07:43Z

管道与过滤器架构模式将复杂处理分解为独立阶段,通过标准化通道传递数据。起源于1960年代的Unix,强调每个过滤器只关注输入和输出,促进了系统的独立开发与测试。本文探讨了Unix管道的历史、形式化定义、设计模式及其在ETL和流处理中的应用,展示了管道模式的灵活性与高效性。

【系统架构设计百科】管道与过滤器:Unix 哲学的架构表达

土法炼钢兴趣小组的博客
土法炼钢兴趣小组的博客 · 2026-04-13T00:00:00Z
Vibhor Kumar:pg_background v1.9:一种更平静、更实用的后台SQL执行方式

pg_background是PostgreSQL的扩展,支持在后台异步执行SQL,避免主会话阻塞。1.9版本新增工作标签、结构化错误返回、结果元数据和批量操作,提升了可观察性和操作体验,适用于维护、审计日志和ETL等场景。

Vibhor Kumar:pg_background v1.9:一种更平静、更实用的后台SQL执行方式

Planet PostgreSQL
Planet PostgreSQL · 2026-04-01T23:30:25Z
主机数据迁移中选择ETL的五个错误理由

ELT是一种数据集成过程,将原始数据从源服务器传输到目标服务器上的数据系统,然后准备信息以供下游使用。相比之下,ETL过于复杂、劳动密集、成本高,不适合处理非结构化数据,也容易成为功能和计算瓶颈。ELT更加灵活,适合处理大量数据,特别是在云端和数据湖中进行分析,正在成为IT组织实现现代化和最大化现有投资价值的关键工具。

主机数据迁移中选择ETL的五个错误理由

BMC Software | Blogs
BMC Software | Blogs · 2026-03-30T13:51:33Z

网络安全行业面临“数据重力”问题,安全团队难以从海量数据中提取可操作见解。Cloudflare的威胁情报平台(TIP)通过分布式架构、实时可视化和自动化响应,提升安全防御能力,整合全球数据,帮助安全团队实现主动防御,确保快速响应和决策。

演变Cloudflare的威胁情报平台:可操作、可扩展且无需ETL

The Cloudflare Blog
The Cloudflare Blog · 2026-03-03T14:00:00Z
什么是数据工程?

数据工程是将原始数据转化为可用信息的过程,涵盖数据管道、存储和处理。数据管道自动化数据的移动与转换,确保数据的可靠性。数据类型包括结构化、非结构化和半结构化。数据工程生命周期包括数据生成、摄取、存储、处理和服务。ETL和ELT是常见的数据集成方法,现代数据工程依赖云平台和大数据工具,以支持实时分析和机器学习。

什么是数据工程?

Databricks
Databricks · 2026-02-03T18:40:00Z
数据工程师的七大Python ETL工具

本文介绍了七种适合数据工程师的Python基础ETL工具,包括Apache Airflow、Luigi、Prefect、Dagster、PySpark、Mage AI和Kedro。这些工具在工作流调度、管道简化、数据资产管理和分布式处理等方面各具特色。选择合适的工具需考虑具体需求、数据规模和团队成熟度。

数据工程师的七大Python ETL工具

KDnuggets
KDnuggets · 2026-01-06T13:00:57Z
从ETL到自主性:2026年的数据工程

数据工程正在转型,工程师角色从构建者转向战略家,承担更高层次的责任。AI的成熟和数据复杂性推动了这一变化。到2026年,数据工程师将与AI协作,专注于业务决策,采用开放数据格式以提升灵活性,并在元数据层面建立领导地位。成功企业将视数据工程师为关键合作伙伴,以推动竞争优势。

从ETL到自主性:2026年的数据工程

The New Stack
The New Stack · 2025-12-19T20:00:19Z
Mooncake为Databricks带来了丰富的事务处理能力

Databricks收购Mooncake技术,旨在将分析直接融入决策过程。Mooncake支持PostgreSQL,结合事务处理与快速分析,消除ETL管道管理。其实时层和HTAP功能促进了事务与分析系统的整合,为AI代理提供新可能性。

Mooncake为Databricks带来了丰富的事务处理能力

The New Stack
The New Stack · 2025-12-04T14:00:22Z

A change-data-capture pipeline that replicates your Postgres tables to analytical destinations like Analytics Buckets and BigQuery in near real time.

Introducing Supabase ETL

Blog - Supabase
Blog - Supabase · 2025-12-02T07:00:00Z
浅谈企业 BI 数据建模流程与指标定义的一些实践

在商业智能项目中,宽表模型整合多张表以便查询,包含维度和指标。需求调研需拆解指标与维度,确保数据一致性。复杂计算常需自定义SQL,维护困难。建议建立指标库、预计算关键指标,并在ETL中实现复杂逻辑,以提高效率和协作。强调深入沟通与明确需求,确保数据开发流程顺畅。

浅谈企业 BI 数据建模流程与指标定义的一些实践

亚马逊AWS官方博客
亚马逊AWS官方博客 · 2025-11-24T06:01:31Z
DuckDB - 一款适用于交互式查询、ETL等的分析型嵌入式SQL数据库

DuckDB是一款嵌入式SQL数据库,专注于高性能交互式分析,支持列式存储和向量化执行,适合数据探索和ETL工作,兼容Python、R、Go等多种语言。

DuckDB - 一款适用于交互式查询、ETL等的分析型嵌入式SQL数据库

云原生
云原生 · 2025-11-18T13:18:33Z
在Heroku上构建企业数据仓库:从复杂的ETL到无缝的Salesforce集成

现代企业依赖于多个应用程序的生态系统。Heroku通过构建实时分析平台,成功整合Salesforce及其他应用的数据,每月处理超过10TB的数据,保持99.99%的正常运行时间。该架构简化了数据集成,消除了传统ETL的复杂性,实现了实时洞察和高效的数据管理。

在Heroku上构建企业数据仓库:从复杂的ETL到无缝的Salesforce集成

Heroku
Heroku · 2025-11-05T20:05:38Z
异构 ETL 环境的 AI 驱动数据血缘管理系统

随着企业数字化转型,数据管道碎片化导致数据治理能力不足和调试困难。为此,构建AI驱动的数据血缘系统,实现跨平台的数据可视化与追踪,以提升数据治理效率。

异构 ETL 环境的 AI 驱动数据血缘管理系统

亚马逊AWS官方博客
亚马逊AWS官方博客 · 2025-10-28T01:22:19Z
从Redshift迁移到Databricks:数据团队的实用指南

本文探讨了从Amazon Redshift迁移到Databricks的策略,包括模式转换、数据迁移和性能优化。建议使用自动化工具,分阶段迁移低风险工作负载,记录数据流,优化ETL流程。Databricks的湖仓架构支持弹性扩展,简化数据管理,提高性能和成本效益。迁移时需关注SQL代码和存储过程的兼容性与性能,最终目标是实现持续改进和高效的数据管理。

从Redshift迁移到Databricks:数据团队的实用指南

Databricks
Databricks · 2025-10-14T21:04:10Z
准备Databricks数据工程师助理认证考试 - 并顺利通过!

Andrew Brown在freeCodeCamp.org YouTube频道发布的新课程将帮助你掌握数据工程基础,包括ETL任务和Databricks工作流,助你顺利通过Databricks数据工程师助理认证考试。

准备Databricks数据工程师助理认证考试 - 并顺利通过!

freeCodeCamp.org
freeCodeCamp.org · 2025-09-19T00:08:39Z
使用Lakebase进行反向ETL:激活您的湖仓数据以实现运营分析

Lakebase是Databricks推出的新工具,简化了反向ETL过程,能够将高质量数据从湖仓直接同步到应用程序,解决低延迟和复杂管道问题,支持实时决策和个性化体验,提高数据管理效率。

使用Lakebase进行反向ETL:激活您的湖仓数据以实现运营分析

Databricks
Databricks · 2025-08-20T12:41:23Z
在Databricks中介绍SQL存储过程

SQL存储过程在ETL和数据管理中非常重要,能够清洗、转换和格式化数据,确保数据的准确性和一致性。通过封装逻辑,存储过程减少了代码重复和复杂性,便于管理复杂的SQL工作流。

在Databricks中介绍SQL存储过程

Databricks
Databricks · 2025-08-14T15:17:39Z
UiPath如何在Databricks上构建可扩展的实时ETL管道

为应对挑战,UiPath对数据管道架构进行了重大改造,合并了批处理与实时数据处理,提升了成本效益和可扩展性。新架构基于Azure Databricks和Spark Structured Streaming,实现低延迟、高吞吐量和可靠的数据交付,支持实时分析和自动化决策,简化开发流程,增强系统可靠性。

UiPath如何在Databricks上构建可扩展的实时ETL管道

Databricks
Databricks · 2025-08-13T08:12:58Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码