小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
如何为机器学习预处理医疗影像——以胸部X光为例的指南

本文讨论了胸部X光影像数据集的预处理重要性,介绍了六个核心步骤:数据验证、缩放、归一化、关注区域引导、处理缺失数据和去噪。强调不当预处理可能导致模型性能下降,并提供了完整的预处理管道示例,以帮助读者有效准备医疗影像数据进行机器学习。

如何为机器学习预处理医疗影像——以胸部X光为例的指南

freeCodeCamp.org
freeCodeCamp.org · 2026-06-04T17:13:59Z
Slack AI:通往多云的道路

文章讨论了Slack在数据管道现代化方面的安全驱动转型,包括从SSH到REST的迁移,以及在网络探测和HTTP/3准备方面的可扩展性提升。

Slack AI:通往多云的道路

Slack Engineering
Slack Engineering · 2026-05-28T14:15:20Z
基于 Amazon IoT Core 与 Kiro 构建可迁移的工业 IoT 数据管道

本文介绍了如何将工业 IoT 数据管道从一个亚马逊云账户迁移到另一个账户,使用幂等的 boto3 脚本和 Kiro AI Agent 进行自动化部署。迁移过程中面临证书复用、IP 白名单和 S3 Bucket 名称唯一性等挑战。通过将手动步骤转化为 AI 可调用的工作流,提高了迁移效率和可观测性,最终实现了安全、可回滚的迁移方案,为未来的多账户治理提供了参考。

基于 Amazon IoT Core 与 Kiro 构建可迁移的工业 IoT 数据管道

亚马逊AWS官方博客
亚马逊AWS官方博客 · 2026-05-26T06:21:25Z
为MHHS扩展:Octopus Energy如何在边际数据工程中实现50倍的成本降低

Octopus Energy通过重新架构数据管道,成功应对数据量增加48倍的挑战,降低了50倍的成本。新系统优化了数据处理流程,符合市场半小时结算(MHHS)要求,提升了结算和定价效率,同时增强了能源使用的智能化和可持续性。

为MHHS扩展:Octopus Energy如何在边际数据工程中实现50倍的成本降低

Databricks
Databricks · 2026-05-23T00:40:09Z

文章讨论了数据管道中Schema变更的四种形状及其对应的存储格式,包括CSV、Parquet、Delta Lake和Iceberg。不同格式在处理Schema变更时的能力差异显著,Iceberg支持自动处理列的增删和重命名,而CSV则完全依赖手动处理。选择合适的格式取决于Schema变更的频率和自动化需求。

读:数据管道中Schema变更的四种形状

暗无天日
暗无天日 · 2026-05-16T00:00:00Z
Figma如何将数据管道从多天延迟升级为实时

Figma通过改进数据管道,实现了数据同步从多天延迟到实时,采用增量同步技术,仅传输变化的数据,显著提高了数据新鲜度和处理效率。新系统节省了数百万美元,支持更大数据量,并实现了自动化验证,确保数据准确性。

Figma如何将数据管道从多天延迟升级为实时

ByteByteGo Newsletter
ByteByteGo Newsletter · 2026-05-12T15:31:03Z
重新思考现代数据平台的SQL ETL

SQL ETL实施面临碎片化挑战,导致操作复杂且难以扩展。Databricks通过统一平台整合执行、调度和监控,简化数据管道管理,提升性能和可靠性,支持多种工作流,确保团队高效协作,适应未来需求。

重新思考现代数据平台的SQL ETL

Databricks
Databricks · 2026-04-29T16:45:00Z
Databricks与Stripe Projects:为代理构建的基础设施

Databricks与Stripe Projects合作推出新工具,允许AI代理快速配置Neon Postgres数据库,无需人工干预。该工具旨在解决AI应用开发中的手动配置瓶颈。Neon的Lakebase架构支持灵活的数据库管理,使代理能够在几秒钟内创建和拆除数据库。此外,Databricks还推出了Stripe数据管道,方便用户分析支付和业务数据。

Databricks与Stripe Projects:为代理构建的基础设施

Databricks
Databricks · 2026-04-29T15:20:00Z
使用 Genie Code 和 Lakeflow 的自主数据工程

Genie Code 是一种数据工程工具,允许工程师通过自然语言生成数据管道,简化开发、调度和故障调试。它能将原本需要数周的任务缩短至数小时,并确保符合治理标准。未来将推出 AI 优化工作负载,进一步提升效率。

使用 Genie Code 和 Lakeflow 的自主数据工程

Databricks
Databricks · 2026-04-28T15:00:00Z
领先科技公司如何通过Lakebase消除构建者的负担

文章讨论了AI原生应用架构的转变,强调数据管道的重要性。传统数据架构效率低下,技术公司通过采用Lakebase架构整合操作与分析层,实现实时数据访问和持续学习。案例显示,使用Lakebase后,企业在数据处理速度、准确性和运营效率上显著提升,消除了交易系统与分析平台之间的隔阂,推动AI系统的持续改进。

领先科技公司如何通过Lakebase消除构建者的负担

Databricks
Databricks · 2026-04-27T23:23:08Z
Python中的高效数据处理:批处理与流处理管道解析

在编写数据管道代码前,需要选择批处理或流处理。批处理适合处理历史数据,适用于数据新鲜度要求低的场景;流处理则适合实时需求。选择时需考虑数据新鲜度、处理复杂性和操作能力。混合架构(如Lambda和Kappa)结合了两者的优点,适应不同场景。理解这两种模式有助于选择合适的解决方案。

Python中的高效数据处理:批处理与流处理管道解析

freeCodeCamp.org
freeCodeCamp.org · 2026-04-13T13:51:23Z
数据管道决定企业通信的投资回报率

根据Fivetran报告,标准化和完全托管的数据管道可提升企业投资回报率(ROI)45%。然而,遗留技术和语义不一致等问题使得标准化面临挑战。企业需优先处理关键数据,建立完善基础设施,以提高数据管道的效率和可靠性。

数据管道决定企业通信的投资回报率

实时互动网
实时互动网 · 2026-04-13T02:04:57Z
Datadog如何重新定义数据复制

Datadog通过将Postgres数据复制到专用搜索平台解决性能问题,采用异步复制提高速度但引入数据延迟。为应对模式演变,建立自动化验证系统和兼容性注册表,确保数据流畅,简化多个数据管道管理,提升整体效率。

Datadog如何重新定义数据复制

ByteByteGo Newsletter
ByteByteGo Newsletter · 2026-04-01T15:31:07Z

数据管道是将数据从多个来源自动移动到指定目的地的过程,通常包括数据清洗和转换。它支持分析、机器学习和业务智能,确保数据质量和合规性。主要步骤包括数据源、提取、转换、加载和目的地。现代数据管道采用云原生架构,支持实时处理和自动化,提升灵活性和可扩展性。

什么是数据管道?完整指南

BMC Software | Blogs
BMC Software | Blogs · 2026-03-31T00:00:35Z

数据管道是将数据从多个来源自动传输到指定目的地的过程,通常包括数据清洗和转换。它支持数据分析、机器学习和业务智能,确保数据质量和合规性。主要步骤包括数据源、提取、转换、加载和目的地。现代数据管道采用云原生架构,支持实时处理和自动化,提升灵活性和可扩展性。

什么是数据管道?完整指南

BMC Software | Blogs
BMC Software | Blogs · 2026-03-31T00:00:35Z

企业在AI代理快速普及中面临的挑战是有效协调这些代理。仅增加代理无法解决复杂性问题,必须通过编排整合代理、工作流和数据管道,以实现可靠的业务成果。关注数据准备、混合环境协同和工作流可靠性是将AI技术有效应用于生产环境的关键。

为什么编排而非增加代理是企业AI扩展的关键

BMC Software | Blogs
BMC Software | Blogs · 2026-03-30T15:02:00Z
什么是数据管道?

数据管道通过收集、处理和交付数据,解决数据孤岛问题,支持自动化、灵活性和实时分析。批处理适用于不需实时数据的场景,而流处理则用于需要即时反应的应用,如欺诈检测。数据管道架构包括数据收集、摄取、准备和消费,确保数据高效流动。

什么是数据管道?

Redis Blog
Redis Blog · 2026-03-30T00:00:00Z
实时网络监控:您的数据平台需要跟上什么

实时网络监控通过持续观察网络设备,及时发现问题,避免传统监控的延迟。它利用推送式遥测技术快速传输数据,减少故障和安全隐患。各行业因停机损失巨大,实时监控成为必要。数据管道分层设计确保高效处理和分析,Redis等技术可优化监控架构。

实时网络监控:您的数据平台需要跟上什么

Redis Blog
Redis Blog · 2026-03-26T00:00:00Z
前Snowflake工程师指出数据工程中的盲点——因此他们创建了Tower来解决这个问题

Tower是一家由前Snowflake工程师创立的初创公司,获得640万美元融资,旨在简化Python数据管道的部署与管理。该平台为中型企业和小型数据团队提供托管环境,使开发者无需管理底层基础设施即可在生产环境中运行数据应用,解决了传统数据基础设施的复杂性问题。

前Snowflake工程师指出数据工程中的盲点——因此他们创建了Tower来解决这个问题

The New Stack
The New Stack · 2026-03-15T14:00:36Z

本文介绍了五种有效的Python装饰器,旨在优化数据科学和机器学习项目中的数据管道。这些装饰器包括JIT编译、内存缓存、模式验证、延迟并行化和内存分析,能够提高数据处理效率,减少计算时间,并增强代码的健壮性。结合Dask和Numba等库,这些装饰器显著提升数据处理性能。

五种强大的Python装饰器用于高性能数据管道

KDnuggets
KDnuggets · 2026-03-13T12:00:06Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码