小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
为MHHS扩展:Octopus Energy如何在边际数据工程中实现50倍的成本降低

Octopus Energy通过重新架构数据管道,成功应对数据量增加48倍的挑战,降低了50倍的成本。新系统优化了数据处理流程,符合市场半小时结算(MHHS)要求,提升了结算和定价效率,同时增强了能源使用的智能化和可持续性。

为MHHS扩展:Octopus Energy如何在边际数据工程中实现50倍的成本降低

Databricks
Databricks · 2026-05-23T00:40:09Z

本文介绍了十个有用的Python库,帮助数据工程师提高工作效率。这些库包括:Prefect(工作流管理)、SQLMesh(SQL转换)、dlt(数据摄取)、Bytewax(实时流处理)、PySpark(分布式批处理)、Great Expectations(数据质量验证)、Pandera(模式强制)、DuckDB(内嵌分析查询)、Polars(高性能数据框转换)和Ibis(后端无关的数据转换)。

2026年数据工程十大Python库

KDnuggets
KDnuggets · 2026-05-19T12:00:04Z
AI 驱动的大数据工程:从平台驱动到 AIDLC 的范式迁移

数据工程正在从“平台驱动”向“AI驱动”的AIDLC范式转型。这一转型改变了控制面、开发模式和质量保障,强调知识资产和声明式开发。AI作为协作者参与整个开发生命周期,提高团队生产力。企业可通过成熟度模型和实施建议逐步实现这一转型,提升数据处理效率和质量。

AI 驱动的大数据工程:从平台驱动到 AIDLC 的范式迁移

亚马逊AWS官方博客
亚马逊AWS官方博客 · 2026-05-08T02:13:16Z
数据科学与数据工程:选择分析还是基础设施

数据工程师和数据科学家在数据处理中的角色不同。数据工程师负责构建和维护数据基础设施,确保数据的可靠流动和存储;数据科学家则分析数据,生成预测模型和商业洞察。两者需紧密合作,数据工程师提供清洁数据,数据科学家利用这些数据进行分析。随着对数据基础设施和AI支持的需求增加,这两个角色的就业前景乐观。

数据科学与数据工程:选择分析还是基础设施

Databricks
Databricks · 2026-05-01T10:45:54Z

Zero To Mastery(ZTM)在4月30日至5月10日提供167门免费课程,涵盖Python、AI工程、数据工程等,适合希望转行的学生。课程更新及时,加入社区可获得支持和指导,无需信用卡。

免费学习最受欢迎的技术技能

KDnuggets
KDnuggets · 2026-04-30T17:00:00Z
使用 Genie Code 和 Lakeflow 的自主数据工程

Genie Code 是一种数据工程工具,允许工程师通过自然语言生成数据管道,简化开发、调度和故障调试。它能将原本需要数周的任务缩短至数小时,并确保符合治理标准。未来将推出 AI 优化工作负载,进一步提升效率。

使用 Genie Code 和 Lakeflow 的自主数据工程

Databricks
Databricks · 2026-04-28T15:00:00Z

大模型训练应视为流水线,分为数据工程、预训练、中训、微调和对齐等阶段。每个环节有不同的算力需求和挑战,数据质量至关重要。预训练需处理大量干净数据以确保模型稳定性,中训通过调整数据配比提升能力,微调教会模型理解指令,对齐阶段则使用多种算法优化模型表现。整体训练过程复杂,需关注数据、算力和工程细节。

【大模型基础设施工程】05:训练全景:Pre-train、SFT、RLHF、DPO、蒸馏

土法炼钢兴趣小组的博客
土法炼钢兴趣小组的博客 · 2026-04-22T00:00:00Z
数据编排:DataOps的核心支柱

本文介绍了数据工程团队在从POC到POV转型中的挑战,以及如何通过DataOps和数据编排来构建下一代数据平台。企业应考虑数据工程和DataOps原则,以提高流程规范性和效率。

数据编排:DataOps的核心支柱

BMC Software | Blogs
BMC Software | Blogs · 2026-03-30T08:08:02Z

最近,Snowflake举办了一场研讨会,教授如何使用动态表创建声明式数据管道。与传统ETL流程相比,声明式方法简化了数据转换,减轻了开发者的认知负担。研讨会包括六个模块,强调自动依赖管理、数据质量集成和内置可视化等优势,使数据工程师能更专注于数据建模和业务逻辑,提升数据处理效率。

使用Snowflake动态表构建声明式数据管道:研讨会深入探讨

KDnuggets
KDnuggets · 2026-03-25T15:11:42Z
前Snowflake工程师指出数据工程中的盲点——因此他们创建了Tower来解决这个问题

Tower是一家由前Snowflake工程师创立的初创公司,获得640万美元融资,旨在简化Python数据管道的部署与管理。该平台为中型企业和小型数据团队提供托管环境,使开发者无需管理底层基础设施即可在生产环境中运行数据应用,解决了传统数据基础设施的复杂性问题。

前Snowflake工程师指出数据工程中的盲点——因此他们创建了Tower来解决这个问题

The New Stack
The New Stack · 2026-03-15T14:00:36Z
数据工程的演变:无服务器计算如何改变笔记本、Lakeflow作业和Spark声明式管道

Databricks的无服务器计算通过自动优化和智能基础设施选择,提高了数据工程的效率和成本效益。新功能帮助团队节省时间和成本,简化基础设施管理,自动处理版本升级和资源配置,使用户能够专注于数据产品和业务价值。

数据工程的演变:无服务器计算如何改变笔记本、Lakeflow作业和Spark声明式管道

Databricks
Databricks · 2026-03-12T15:00:00Z
迁移新功能:更快且更可预测

Lakebridge帮助数据工程师简化遗留数据仓库迁移,提供自动化和可预测的流程。新功能包括全面评估、AI驱动的SQL转换和用户引导体验,减少不确定性,提高迁移效率,帮助团队更快、更准确地完成迁移。

迁移新功能:更快且更可预测

Databricks
Databricks · 2026-03-05T00:41:31Z

大型语言模型(LLMs)如GPT-4的崛起改变了人工智能领域,数据工程在此过程中变得至关重要。处理非结构化数据并建立高质量数据管道是支持模型训练和推理的关键。数据科学家需关注数据质量、来源及其对模型行为的影响,以构建可靠的AI系统。

LLM时代的数据工程

KDnuggets
KDnuggets · 2026-03-02T15:00:37Z
以AI为先的数据工程方法:Lakeflow与Agent Bricks

数据工程师正在利用AI改善ETL流程,构建可靠的数据管道。Databricks Lakeflow提供统一平台,自动化数据处理,提升工作效率。通过AI功能,工程师能够快速处理非结构化数据,提取商业洞察,减少手动操作。该平台支持文档解析和数据查询,助力企业高效分析和决策。

以AI为先的数据工程方法:Lakeflow与Agent Bricks

Databricks
Databricks · 2026-02-24T20:14:45Z
Spark 声明式管道:数据工程为何需要实现端到端的声明式

数据工程团队面临快速交付高质量数据的压力,但构建和操作数据管道变得更加困难。数据工程师大多时间用于处理工具的操作负担,而非编写代码。现有框架需要手动处理数据处理、质量和回填等任务,导致数据工程成为瓶颈。Spark声明式管道(SDP)通过声明整个管道,简化数据处理,提高生产力和成本效益,降低操作负担。

Spark 声明式管道:数据工程为何需要实现端到端的声明式

Databricks
Databricks · 2026-02-23T21:40:00Z
演讲:小组讨论:现代数据架构

Adi Polak、Sarah Usher和Matthias Niehoff探讨了软件工程师转型为数据工程师的挑战与机遇。他们指出数据工程的重要性,强调数据与软件工程的界限日益模糊,技能交叉应用至关重要。团队合作和持续学习是成功的关键,尤其在快速发展的数据领域。

演讲:小组讨论:现代数据架构

InfoQ
InfoQ · 2026-02-18T09:20:00Z
在Azure Databricks上使用Lakeflow现代化您的数据工程平台

数据工程师在构建生产就绪管道时面临挑战。Lakeflow在Azure Databricks上提供统一的数据工程解决方案,集成数据摄取、转换和编排,简化开发流程,提高数据质量和安全性,帮助团队更高效地工作。

在Azure Databricks上使用Lakeflow现代化您的数据工程平台

Databricks
Databricks · 2026-02-10T19:54:19Z
什么是数据工程?

数据工程是将原始数据转化为可用信息的过程,涵盖数据管道、存储和处理。数据管道自动化数据的移动与转换,确保数据的可靠性。数据类型包括结构化、非结构化和半结构化。数据工程生命周期包括数据生成、摄取、存储、处理和服务。ETL和ELT是常见的数据集成方法,现代数据工程依赖云平台和大数据工具,以支持实时分析和机器学习。

什么是数据工程?

Databricks
Databricks · 2026-02-03T18:40:00Z
20260120 B 站直播 —— 转行大模型文字精要

作者分享了在大模型公司的工作经验,探讨了大模型的各个层面及转行门槛,强调数据工程的重要性和模型使用的复杂性。提到Vibe Coding的趋势,认为大模型将改变代码生命周期和工作流,鼓励程序员尝试新技术。最后指出大模型的多模态能力及个人在该领域的机会。

20260120 B 站直播 —— 转行大模型文字精要

木鸟杂记
木鸟杂记 · 2026-01-25T08:13:26Z
20260120 哔哩哔哩直播 — 转型至大模型(LLM)的关键要点

本文讨论了大模型(LLM)的转型,强调基础设施、数据和模型层的差异。数据工程主要关注数据清洗和处理,模型则通过提示或微调来使用。Vibe Coding代表了LLM在行业中的应用趋势,提升了编程效率。多模态能力的提升依赖于高质量数据和模型融合。随着LLM的成熟,个人和学生应积极探索其应用机会。

20260120 哔哩哔哩直播 — 转型至大模型(LLM)的关键要点

木鸟杂记
木鸟杂记 · 2026-01-25T08:13:26Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码