小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
你应该尝试的5种轻量级Pandas替代品

本文介绍了五种轻量级Python库,作为Pandas的替代品,旨在加速数据分析和处理。这些库包括DuckDB(支持SQL查询)、Polars(快速数据处理)、PyArrow(列式数据读取)、Modin(并行计算)和Dask(大数据处理)。

你应该尝试的5种轻量级Pandas替代品

KDnuggets
KDnuggets · 2025-12-12T13:00:07Z
使用Dask和Scikit-learn处理大数据集

本文介绍了如何在有限硬件条件下使用Dask进行可扩展的数据处理。Dask与Python框架无缝集成,适合处理大数据集。通过示例,展示了数据的加载、清理和准备过程,并结合scikit-learn进行机器学习建模,以优化内存使用和加速处理流程。

使用Dask和Scikit-learn处理大数据集

KDnuggets
KDnuggets · 2025-11-13T15:00:29Z
Ray还是Dask?数据科学家的实用指南

Ray和Dask是加速数据科学工作的工具。Dask适合大数据分析,易与Pandas和NumPy结合;Ray更通用,适合机器学习和AI任务。数据分析选择Dask,机器学习模型构建和部署选择Ray。

Ray还是Dask?数据科学家的实用指南

KDnuggets
KDnuggets · 2025-09-09T14:00:05Z
在Python中处理超出内存限制数据的实用指南

本文介绍了在Python中处理超出内存限制的数据的策略,包括数据分块、使用Dask进行并行计算、利用Polars高效管理内存,以及通过Pandas和sqlite3进行SQL查询。这些方法帮助数据科学家在内存受限的情况下有效处理大型数据集,避免内存溢出问题。

在Python中处理超出内存限制数据的实用指南

MachineLearningMastery.com
MachineLearningMastery.com · 2025-08-20T12:00:41Z
超越Pandas:7种适用于大型数据集的高级数据处理技术

本文介绍了七种超越Pandas的数据处理技术,适用于大型数据集。这些技术包括Dask进行并行处理、Polars加速数据操作、Apache Arrow优化数据传输、SQL引擎(如DuckDB)直接查询、PySpark进行分布式处理、Vaex高效分析大数据,以及使用生成器进行流式处理。每种工具都有其独特优势,适合不同场景,帮助用户提高数据处理效率。

超越Pandas:7种适用于大型数据集的高级数据处理技术

MachineLearningMastery.com
MachineLearningMastery.com · 2025-07-28T14:43:35Z

数据是企业竞争优势的重要资产。随着技术进步,数据收集和存储变得更容易,但庞大的数据量导致处理速度减慢。Dask是一个强大的Python库,支持并行计算,能够高效处理大数据集。本文介绍如何使用Dask建立端到端的数据管道,包括数据库设置、CSV数据导入和数据转换等步骤,帮助数据专业人士提升处理能力。

使用Dask构建端到端的数据管道

KDnuggets
KDnuggets · 2025-05-05T14:00:04Z
为现有表添加审计列:大型数据集方法比较

在数据工程中,为表添加审计列(如bd_insert_dtm和bd_updated_dtm)是常见需求。对于2-5GB的大型数据集,选择合适的方法至关重要。本文比较了四种方法:PySpark适合大规模数据,Pandas简单易用,Dask结合两者优点,生成器则内存占用最低。根据具体需求选择合适的方法。

为现有表添加审计列:大型数据集方法比较

DEV Community
DEV Community · 2025-04-16T18:57:39Z

Dask是一个强大的Python库,专为处理大规模数据而设计。它通过将数据分割并进行并行计算,解决了传统CSV文件在内存中处理的困难。Dask支持懒惰求值,优化计算效率,适合处理超大数据集。本文介绍了如何使用Dask读取和处理CSV文件,进行数据过滤和计算。

使用Dask处理超大内存的CSV文件目录

KDnuggets
KDnuggets · 2025-03-25T16:00:41Z

Pandas是流行的数据处理库,但在处理大数据时效率较低,缺乏并行化支持。本文介绍了几种替代库:Dask通过并行计算加速数据处理,Polars结合Rust和Python实现快速处理,PyArrow优化数据交换,PySpark利用分布式计算处理大数据。这些库各具优势,适合不同的数据科学需求。

超越Pandas的Python工具:扩展您的数据科学工具包的库

KDnuggets
KDnuggets · 2025-03-05T13:00:24Z

Dask是一个支持并行计算的Python库,适用于大规模数据处理。本文介绍了如何结合Dask与Sklearn进行机器学习模型开发,包括数据预处理、模型训练和超参数调优。通过示例代码,展示了数据集的加载与处理、特征选择和数据缩放,最终训练逻辑回归模型并评估其准确性。Dask使开发者能够轻松实现可扩展的机器学习工作流程。

如何使用Dask扩展Sklearn

KDnuggets
KDnuggets · 2025-02-13T13:00:49Z

本文介绍了如何使用Dask进行并行时间序列分析,包括数据集准备、季度统计分析和可视化图表生成。Dask简化了并行计算,提高了数据处理效率,适用于机器学习和高级数据分析。

如何使用Dask进行并行时间序列分析

KDnuggets
KDnuggets · 2025-01-30T13:00:22Z

在优化geoparquet文件的分区时,空间分区至关重要。将地理上接近的数据集中在一起,可以提高读取效率。使用dask-geopandas进行空间分区,有助于有效重组数据,减少无效读取。

Dask Geopandas 空间重组

datasframe
datasframe · 2024-12-18T16:33:34Z

Dask是一个强大的Python库,专为处理大型数据集而设计。它通过将数据分割成小块并进行并行处理,解决了内存限制问题。Dask与NumPy、Pandas等库兼容,支持动态任务调度和可扩展性,适用于单机和集群计算。主要组件包括Dask Arrays、DataFrames和Delayed,帮助数据科学家高效处理复杂计算。

Dask简介:Python数据科学家的强大工具

KDnuggets
KDnuggets · 2024-12-16T17:00:42Z

昨天一所大学联系我们,他们在使用我们在Planetary Computer上托管的Microsoft Building Footprints数据集时遇到了性能问题。他们想获取土耳其一小部分的建筑物足迹,但注意到性能相对较慢,似乎读取了很多数据。本文详细介绍了我们如何调试发生了什么,以及我们采取的步骤来解决问题。我们重新收集了一些新的ms-buildings STAC项目,它们是空间分区的,这样查询就会非常快:只需加载少量数据即可。我们使用Dask来加速Dask,从而将元数据读取时间从30秒降低到30秒(使用更多工作者会更快)。

Dask-GeoPandas 空间分区性能

datasframe
datasframe · 2023-02-09T14:10:59Z

A college reached out yesterday about a performance issue they were hitting when working with the Microsoft Building Footprints dataset we host on the Planetary Computer. They wanted to get the...

Dask-GeoPandas Spatial Partitioning Performance

datasframe
datasframe · 2023-02-09T14:10:59Z
《PyCoder 第528期》

本文介绍了Python相关教程和文章,包括Django静态文件和模板配置、pandas和NumPy数据清理、Python代码优化、分析方法、错误处理编码风格、Dask数据科学项目管理、软件供应链贡献者讨论、TDD和Django时间API、FastAPI和MongoDB构建CRUD应用、以太坊区块链交易教程。

《PyCoder 第528期》

蠎周刊
蠎周刊 · 2022-06-08T03:42:00Z

This work is supported by Anaconda Inc. This post describes a recent improvement made to TPOT. TPOT is an automated machine learning library for Python. It does some feature engineering and...

Distributed Auto-ML with TPOT with Dask

datasframe
datasframe · 2018-08-30T05:00:00Z

This work is supported by Anaconda Inc. This post describes a recent improvement made to TPOT. TPOT is an automated machine learning library for Python. It does some feature engineering and...

Distributed Auto-ML with TPOT with Dask

datasframe
datasframe · 2018-08-30T00:00:00Z

This work is supported by Anaconda Inc. This post describes a recent improvement made to TPOT. TPOT is an automated machine learning library for Python. It does some feature engineering and...

Distributed Auto-ML with TPOT with Dask

datasframe
datasframe · 2018-08-30T00:00:00Z
Python Digest 160

该篇文章介绍了Python类对象的内部机制、PyLint集成到PyCharm中、使用Python 3进行研究、TensorFlow对象检测API、分布式Pandas中的Dask DataFrames、使用Python 3.7中的“数据类”、全球学习XPRIZE、使用Python进行Linux系统挖掘、Google Colab免费GPU教程、30个过去一年中的惊人Python项目等。

Python Digest 160

蠎周刊
蠎周刊 · 2018-01-27T14:42:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码