小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

大模型训练应视为流水线,分为数据工程、预训练、中训、微调和对齐等阶段。每个环节有不同的算力需求和挑战,数据质量至关重要。预训练需处理大量干净数据以确保模型稳定性,中训通过调整数据配比提升能力,微调教会模型理解指令,对齐阶段则使用多种算法优化模型表现。整体训练过程复杂,需关注数据、算力和工程细节。

【大模型基础设施工程】05:训练全景:Pre-train、SFT、RLHF、DPO、蒸馏

土法炼钢兴趣小组的博客
土法炼钢兴趣小组的博客 · 2026-04-22T00:00:00Z
数据编排:DataOps的核心支柱

本文介绍了数据工程团队在从POC到POV转型中的挑战,以及如何通过DataOps和数据编排来构建下一代数据平台。企业应考虑数据工程和DataOps原则,以提高流程规范性和效率。

数据编排:DataOps的核心支柱

BMC Software | Blogs
BMC Software | Blogs · 2026-03-30T08:08:02Z

最近,Snowflake举办了一场研讨会,教授如何使用动态表创建声明式数据管道。与传统ETL流程相比,声明式方法简化了数据转换,减轻了开发者的认知负担。研讨会包括六个模块,强调自动依赖管理、数据质量集成和内置可视化等优势,使数据工程师能更专注于数据建模和业务逻辑,提升数据处理效率。

使用Snowflake动态表构建声明式数据管道:研讨会深入探讨

KDnuggets
KDnuggets · 2026-03-25T15:11:42Z
前Snowflake工程师指出数据工程中的盲点——因此他们创建了Tower来解决这个问题

Tower是一家由前Snowflake工程师创立的初创公司,获得640万美元融资,旨在简化Python数据管道的部署与管理。该平台为中型企业和小型数据团队提供托管环境,使开发者无需管理底层基础设施即可在生产环境中运行数据应用,解决了传统数据基础设施的复杂性问题。

前Snowflake工程师指出数据工程中的盲点——因此他们创建了Tower来解决这个问题

The New Stack
The New Stack · 2026-03-15T14:00:36Z
数据工程的演变:无服务器计算如何改变笔记本、Lakeflow作业和Spark声明式管道

Databricks的无服务器计算通过自动优化和智能基础设施选择,提高了数据工程的效率和成本效益。新功能帮助团队节省时间和成本,简化基础设施管理,自动处理版本升级和资源配置,使用户能够专注于数据产品和业务价值。

数据工程的演变:无服务器计算如何改变笔记本、Lakeflow作业和Spark声明式管道

Databricks
Databricks · 2026-03-12T15:00:00Z
迁移新功能:更快且更可预测

Lakebridge帮助数据工程师简化遗留数据仓库迁移,提供自动化和可预测的流程。新功能包括全面评估、AI驱动的SQL转换和用户引导体验,减少不确定性,提高迁移效率,帮助团队更快、更准确地完成迁移。

迁移新功能:更快且更可预测

Databricks
Databricks · 2026-03-05T00:41:31Z

大型语言模型(LLMs)如GPT-4的崛起改变了人工智能领域,数据工程在此过程中变得至关重要。处理非结构化数据并建立高质量数据管道是支持模型训练和推理的关键。数据科学家需关注数据质量、来源及其对模型行为的影响,以构建可靠的AI系统。

LLM时代的数据工程

KDnuggets
KDnuggets · 2026-03-02T15:00:37Z
以AI为先的数据工程方法:Lakeflow与Agent Bricks

数据工程师正在利用AI改善ETL流程,构建可靠的数据管道。Databricks Lakeflow提供统一平台,自动化数据处理,提升工作效率。通过AI功能,工程师能够快速处理非结构化数据,提取商业洞察,减少手动操作。该平台支持文档解析和数据查询,助力企业高效分析和决策。

以AI为先的数据工程方法:Lakeflow与Agent Bricks

Databricks
Databricks · 2026-02-24T20:14:45Z
Spark 声明式管道:数据工程为何需要实现端到端的声明式

数据工程团队面临快速交付高质量数据的压力,但构建和操作数据管道变得更加困难。数据工程师大多时间用于处理工具的操作负担,而非编写代码。现有框架需要手动处理数据处理、质量和回填等任务,导致数据工程成为瓶颈。Spark声明式管道(SDP)通过声明整个管道,简化数据处理,提高生产力和成本效益,降低操作负担。

Spark 声明式管道:数据工程为何需要实现端到端的声明式

Databricks
Databricks · 2026-02-23T21:40:00Z
演讲:小组讨论:现代数据架构

Adi Polak、Sarah Usher和Matthias Niehoff探讨了软件工程师转型为数据工程师的挑战与机遇。他们指出数据工程的重要性,强调数据与软件工程的界限日益模糊,技能交叉应用至关重要。团队合作和持续学习是成功的关键,尤其在快速发展的数据领域。

演讲:小组讨论:现代数据架构

InfoQ
InfoQ · 2026-02-18T09:20:00Z
在Azure Databricks上使用Lakeflow现代化您的数据工程平台

数据工程师在构建生产就绪管道时面临挑战。Lakeflow在Azure Databricks上提供统一的数据工程解决方案,集成数据摄取、转换和编排,简化开发流程,提高数据质量和安全性,帮助团队更高效地工作。

在Azure Databricks上使用Lakeflow现代化您的数据工程平台

Databricks
Databricks · 2026-02-10T19:54:19Z
什么是数据工程?

数据工程是将原始数据转化为可用信息的过程,涵盖数据管道、存储和处理。数据管道自动化数据的移动与转换,确保数据的可靠性。数据类型包括结构化、非结构化和半结构化。数据工程生命周期包括数据生成、摄取、存储、处理和服务。ETL和ELT是常见的数据集成方法,现代数据工程依赖云平台和大数据工具,以支持实时分析和机器学习。

什么是数据工程?

Databricks
Databricks · 2026-02-03T18:40:00Z
20260120 B 站直播 —— 转行大模型文字精要

作者分享了在大模型公司的工作经验,探讨了大模型的各个层面及转行门槛,强调数据工程的重要性和模型使用的复杂性。提到Vibe Coding的趋势,认为大模型将改变代码生命周期和工作流,鼓励程序员尝试新技术。最后指出大模型的多模态能力及个人在该领域的机会。

20260120 B 站直播 —— 转行大模型文字精要

木鸟杂记
木鸟杂记 · 2026-01-25T08:13:26Z
2026年数据工程的五大新兴趋势

到2026年,数据工程将重心转向数据管道的设计与管理,关键趋势包括平台化数据基础设施、事件驱动架构、AI辅助工程、数据合同治理及成本意识。这些变化将促进数据团队在所有权、合同和经济学方面的成熟,提高数据质量与效率。

2026年数据工程的五大新兴趋势

KDnuggets
KDnuggets · 2025-12-23T13:00:52Z
从ETL到自主性:2026年的数据工程

数据工程正在转型,工程师角色从构建者转向战略家,承担更高层次的责任。AI的成熟和数据复杂性推动了这一变化。到2026年,数据工程师将与AI协作,专注于业务决策,采用开放数据格式以提升灵活性,并在元数据层面建立领导地位。成功企业将视数据工程师为关键合作伙伴,以推动竞争优势。

从ETL到自主性:2026年的数据工程

The New Stack
The New Stack · 2025-12-19T20:00:19Z
推出Databricks GenAI合作伙伴加速器,助力数据工程与迁移

企业面临现代化数据架构的压力,需摆脱传统ETL系统,采用更简单、可扩展的架构。许多组织仍依赖手动代码转换和复杂的数据管道,导致迁移缓慢,影响AI采用。Databricks通过GenAI加速器,利用智能代理生成SQL和Python代码,优化数据管道,简化数据工程和迁移,提高效率,助力企业快速现代化数据操作。

推出Databricks GenAI合作伙伴加速器,助力数据工程与迁移

Databricks
Databricks · 2025-12-09T22:00:00Z
演讲:可靠的数据流与可扩展的平台:应对关键数据挑战

马提亚斯·尼霍夫在德国的codecentric工作,探讨了数据工程中的挑战与解决方案。他强调数据在软件架构中的重要性,主张将数据视为一等公民。通过与客户合作,他展示了如何利用数据合同和监控提升数据质量与可靠性,并建议简化架构,应用软件工程最佳实践,探讨数据与应用平台整合的潜力,以提高数据使用效率。

演讲:可靠的数据流与可扩展的平台:应对关键数据挑战

InfoQ
InfoQ · 2025-11-28T09:45:00Z
Claude Opus 4.5 已上线

Databricks通过Claude Opus 4.5和Claude Sonnet 4.5加速数据工程转型,提升企业处理海量数据的能力,支持复杂任务和财务分析,简化数据治理,助力将非结构化数据转化为可操作智能。

Claude Opus 4.5 已上线

Databricks
Databricks · 2025-11-24T19:00:29Z
Nexla推出Express:一个用于AI数据工程的对话式平台

Nexla推出了Express,一个对话式数据工程平台,用户可通过自然语言描述数据需求,系统自动发现和转换数据源,无需手动编码。该平台适合开发者、分析师和业务用户,旨在加速AI数据准备,提高企业效率。

Nexla推出Express:一个用于AI数据工程的对话式平台

InfoQ
InfoQ · 2025-11-22T12:00:00Z
数据工程如何推动制造业转型

制造业正经历变革,智能技术使工厂数据激增。数据工程服务通过整合和分析数据,帮助制造商优化运营、降低成本、提升竞争力。尽管许多企业仍依赖传统维护策略,数据驱动的决策能提高效率,减少设备故障和停机时间。

数据工程如何推动制造业转型

KDnuggets
KDnuggets · 2025-11-20T18:00:45Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码