小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
你应该尝试的5种轻量级Pandas替代品

本文介绍了五种轻量级Python库,作为Pandas的替代品,旨在加速数据分析和处理。这些库包括DuckDB(支持SQL查询)、Polars(快速数据处理)、PyArrow(列式数据读取)、Modin(并行计算)和Dask(大数据处理)。

你应该尝试的5种轻量级Pandas替代品

KDnuggets
KDnuggets · 2025-12-12T13:00:07Z
使用Dask和Scikit-learn处理大数据集

本文介绍了如何在有限硬件条件下使用Dask进行可扩展的数据处理。Dask与Python框架无缝集成,适合处理大数据集。通过示例,展示了数据的加载、清理和准备过程,并结合scikit-learn进行机器学习建模,以优化内存使用和加速处理流程。

使用Dask和Scikit-learn处理大数据集

KDnuggets
KDnuggets · 2025-11-13T15:00:29Z
Ray还是Dask?数据科学家的实用指南

Ray和Dask是加速数据科学工作的工具。Dask适合大数据分析,易与Pandas和NumPy结合;Ray更通用,适合机器学习和AI任务。数据分析选择Dask,机器学习模型构建和部署选择Ray。

Ray还是Dask?数据科学家的实用指南

KDnuggets
KDnuggets · 2025-09-09T14:00:05Z
在Python中处理超出内存限制数据的实用指南

本文介绍了在Python中处理超出内存限制的数据的策略,包括数据分块、使用Dask进行并行计算、利用Polars高效管理内存,以及通过Pandas和sqlite3进行SQL查询。这些方法帮助数据科学家在内存受限的情况下有效处理大型数据集,避免内存溢出问题。

在Python中处理超出内存限制数据的实用指南

MachineLearningMastery.com
MachineLearningMastery.com · 2025-08-20T12:00:41Z
超越Pandas:7种适用于大型数据集的高级数据处理技术

本文介绍了七种超越Pandas的数据处理技术,适用于大型数据集。这些技术包括Dask进行并行处理、Polars加速数据操作、Apache Arrow优化数据传输、SQL引擎(如DuckDB)直接查询、PySpark进行分布式处理、Vaex高效分析大数据,以及使用生成器进行流式处理。每种工具都有其独特优势,适合不同场景,帮助用户提高数据处理效率。

超越Pandas:7种适用于大型数据集的高级数据处理技术

MachineLearningMastery.com
MachineLearningMastery.com · 2025-07-28T14:43:35Z

数据是企业竞争优势的重要资产。随着技术进步,数据收集和存储变得更容易,但庞大的数据量导致处理速度减慢。Dask是一个强大的Python库,支持并行计算,能够高效处理大数据集。本文介绍如何使用Dask建立端到端的数据管道,包括数据库设置、CSV数据导入和数据转换等步骤,帮助数据专业人士提升处理能力。

使用Dask构建端到端的数据管道

KDnuggets
KDnuggets · 2025-05-05T14:00:04Z
为现有表添加审计列:大型数据集方法比较

在数据工程中,为表添加审计列(如bd_insert_dtm和bd_updated_dtm)是常见需求。对于2-5GB的大型数据集,选择合适的方法至关重要。本文比较了四种方法:PySpark适合大规模数据,Pandas简单易用,Dask结合两者优点,生成器则内存占用最低。根据具体需求选择合适的方法。

为现有表添加审计列:大型数据集方法比较

DEV Community
DEV Community · 2025-04-16T18:57:39Z

Dask是一个强大的Python库,专为处理大规模数据而设计。它通过将数据分割并进行并行计算,解决了传统CSV文件在内存中处理的困难。Dask支持懒惰求值,优化计算效率,适合处理超大数据集。本文介绍了如何使用Dask读取和处理CSV文件,进行数据过滤和计算。

使用Dask处理超大内存的CSV文件目录

KDnuggets
KDnuggets · 2025-03-25T16:00:41Z

Pandas是流行的数据处理库,但在处理大数据时效率较低,缺乏并行化支持。本文介绍了几种替代库:Dask通过并行计算加速数据处理,Polars结合Rust和Python实现快速处理,PyArrow优化数据交换,PySpark利用分布式计算处理大数据。这些库各具优势,适合不同的数据科学需求。

超越Pandas的Python工具:扩展您的数据科学工具包的库

KDnuggets
KDnuggets · 2025-03-05T13:00:24Z

Dask是一个支持并行计算的Python库,适用于大规模数据处理。本文介绍了如何结合Dask与Sklearn进行机器学习模型开发,包括数据预处理、模型训练和超参数调优。通过示例代码,展示了数据集的加载与处理、特征选择和数据缩放,最终训练逻辑回归模型并评估其准确性。Dask使开发者能够轻松实现可扩展的机器学习工作流程。

如何使用Dask扩展Sklearn

KDnuggets
KDnuggets · 2025-02-13T13:00:49Z

本文介绍了如何使用Dask进行并行时间序列分析,包括数据集准备、季度统计分析和可视化图表生成。Dask简化了并行计算,提高了数据处理效率,适用于机器学习和高级数据分析。

如何使用Dask进行并行时间序列分析

KDnuggets
KDnuggets · 2025-01-30T13:00:22Z

在优化geoparquet文件的分区时,空间分区至关重要。将地理上接近的数据集中在一起,可以提高读取效率。使用dask-geopandas进行空间分区,有助于有效重组数据,减少无效读取。

Dask Geopandas 空间重组

datasframe
datasframe · 2024-12-18T16:33:34Z

Dask是一个强大的Python库,专为处理大型数据集而设计。它通过将数据分割成小块并进行并行处理,解决了内存限制问题。Dask与NumPy、Pandas等库兼容,支持动态任务调度和可扩展性,适用于单机和集群计算。主要组件包括Dask Arrays、DataFrames和Delayed,帮助数据科学家高效处理复杂计算。

Dask简介:Python数据科学家的强大工具

KDnuggets
KDnuggets · 2024-12-16T17:00:42Z

昨天一所大学联系我们,他们在使用我们在Planetary Computer上托管的Microsoft Building Footprints数据集时遇到了性能问题。他们想获取土耳其一小部分的建筑物足迹,但注意到性能相对较慢,似乎读取了很多数据。本文详细介绍了我们如何调试发生了什么,以及我们采取的步骤来解决问题。我们重新收集了一些新的ms-buildings STAC项目,它们是空间分区的,这样查询就会非常快:只需加载少量数据即可。我们使用Dask来加速Dask,从而将元数据读取时间从30秒降低到30秒(使用更多工作者会更快)。

Dask-GeoPandas 空间分区性能

datasframe
datasframe · 2023-02-09T14:10:59Z

A college reached out yesterday about a performance issue they were hitting when working with the Microsoft Building Footprints dataset we host on the Planetary Computer. They wanted to get the...

Dask-GeoPandas Spatial Partitioning Performance

datasframe
datasframe · 2023-02-09T14:10:59Z
《PyCoder 第528期》

本文介绍了Python相关教程和文章,包括Django静态文件和模板配置、pandas和NumPy数据清理、Python代码优化、分析方法、错误处理编码风格、Dask数据科学项目管理、软件供应链贡献者讨论、TDD和Django时间API、FastAPI和MongoDB构建CRUD应用、以太坊区块链交易教程。

《PyCoder 第528期》

蠎周刊
蠎周刊 · 2022-06-08T03:42:00Z

This work is supported by Anaconda Inc. This post describes a recent improvement made to TPOT. TPOT is an automated machine learning library for Python. It does some feature engineering and...

Distributed Auto-ML with TPOT with Dask

datasframe
datasframe · 2018-08-30T05:00:00Z

This work is supported by Anaconda Inc. This post describes a recent improvement made to TPOT. TPOT is an automated machine learning library for Python. It does some feature engineering and...

Distributed Auto-ML with TPOT with Dask

datasframe
datasframe · 2018-08-30T00:00:00Z

This work is supported by Anaconda Inc. This post describes a recent improvement made to TPOT. TPOT is an automated machine learning library for Python. It does some feature engineering and...

Distributed Auto-ML with TPOT with Dask

datasframe
datasframe · 2018-08-30T00:00:00Z
Python Digest 160

该篇文章介绍了Python类对象的内部机制、PyLint集成到PyCharm中、使用Python 3进行研究、TensorFlow对象检测API、分布式Pandas中的Dask DataFrames、使用Python 3.7中的“数据类”、全球学习XPRIZE、使用Python进行Linux系统挖掘、Google Colab免费GPU教程、30个过去一年中的惊人Python项目等。

Python Digest 160

蠎周刊
蠎周刊 · 2018-01-27T14:42:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码