小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

本文介绍了五个重要的Python概念,以提高数据科学中的性能和可读性。首先,NumPy的向量化加速数据处理,避免慢速循环。其次,广播机制允许在不同维度的数组上运算,减少内存复制。第三,Pandas的.pipe()和.assign()方法促进功能性数据管道的构建,提升代码可读性。第四,使用lambda函数简化数据转换,避免冗长循环。最后,通过优化数据框的dtype,降低内存占用。这些技巧帮助数据科学家构建高效、可维护的数据处理流程。

数据科学家必知的五个Python概念

KDnuggets
KDnuggets · 2026-06-01T12:00:24Z
Pandas GroupBy 的示例解析

Pandas是Python中用于数据分析的流行库,GroupBy功能可以按类别分组数据并进行聚合。本文介绍了如何使用GroupBy进行数据汇总,包括创建示例数据集、基本聚合、命名聚合、多列分组、排序、过滤和自定义逻辑等操作。这些技术帮助用户高效分析和总结数据。

Pandas GroupBy 的示例解析

KDnuggets
KDnuggets · 2026-05-27T14:00:09Z

Pandas在处理小数据集时表现良好,但在大数据处理上效率低下。Polars是基于Rust的DataFrame库,支持并行计算和延迟评估,显著提高性能。在处理大规模数据时,Polars表现出5-10倍的速度优势,适合数据科学家解决性能问题。

使用Polars替代Pandas:性能深入分析

KDnuggets
KDnuggets · 2026-05-12T14:00:13Z

本文讨论了数据科学中使用pandas的最佳实践,重点介绍了方法链、pipe()模式、高效的连接与合并、groupby优化、向量化条件逻辑和性能陷阱。通过避免不必要的中间变量和使用向量化操作,可以提高代码的可读性和执行效率。建议使用transform()替代agg(),并利用np.where()和np.select()进行条件赋值,以提升性能。

大多数数据科学家未使用的高级Pandas模式

KDnuggets
KDnuggets · 2026-04-21T14:00:40Z
Python 潮流周刊#147:Python 和 Ruby 的 JIT 故事

本期Python潮流周刊分享了12篇文章和开源项目,重点讨论Python与Ruby的JIT故事、Django ORM解耦、Pandas与Polars的基准测试等技术话题,并介绍了多个AI智能体项目和Python包管理器的安全最佳实践。

Python 潮流周刊#147:Python 和 Ruby 的 JIT 故事

豌豆花下猫 | Python猫
豌豆花下猫 | Python猫 · 2026-04-18T00:00:00Z
第730期:Django类型提示、Python字典、pandas与Polars的比较及更多(2026年4月14日)

Django项目在2026年的类型提示使用较为复杂,因为Django早于Python的类型提示标准化发布。文章探讨了如何在Django中有效应用类型提示,以及相关的安全性和包管理问题。

第730期:Django类型提示、Python字典、pandas与Polars的比较及更多(2026年4月14日)

PyCoder’s Weekly
PyCoder’s Weekly · 2026-04-14T19:30:00Z

本文比较了Python中的数据处理库pandas和Polars。Polars在读取CSV文件时速度更快,内存使用更高效,读取速度比pandas快8.2倍,内存使用减少97.1%。Polars语法简洁,支持惰性计算,优化查询性能。尽管pandas用户基础广泛,但对于大规模数据分析,学习Polars是值得的。

Pandas与Polars:语法、速度和内存的全面比较

KDnuggets
KDnuggets · 2026-03-05T15:00:58Z
Pandas 3.0引入默认字符串数据类型和写时复制语义

pandas 3.0.0发布,更新了字符串处理、内存语义和日期时间解析,移除过时功能。新版本引入专用字符串dtype,简化缺失值管理,采用写时复制语义,改善索引操作,支持新表达式语法pd.col(),并调整日期时间处理精度。最低要求升级至Python 3.11和NumPy 1.26.0,社区讨论pandas未来及其竞争对手Polars。

Pandas 3.0引入默认字符串数据类型和写时复制语义

InfoQ
InfoQ · 2026-02-11T08:40:00Z
Python 潮流周刊#137:Pandas 3.0 发布了

本周精选400+信息源,分享12篇文章和开源项目,涵盖Pandas新特性、Django游戏引擎和Asyncio支持,助力Python技术提升与职业发展。

Python 潮流周刊#137:Pandas 3.0 发布了

豌豆花下猫 | Python猫
豌豆花下猫 | Python猫 · 2026-01-24T00:00:00Z
第718期:pandas 3.0、deque、tprof及更多(2026年1月20日)

Pandas 3.0 引入了 pd.col 表达式、Copy-on-Write 机制和 PyArrow 支持的字符串,性能提升 5-10 倍。Python deque 用于高效管理队列和栈。Anthropic 向 PSF 投资 150 万美元,关注 Python 生态安全。

第718期:pandas 3.0、deque、tprof及更多(2026年1月20日)

PyCoder’s Weekly
PyCoder’s Weekly · 2026-01-20T19:30:00Z
演讲:如何构建无服务器数据库

Alex Seaton介绍了如何构建无服务器数据库,使用Python和pandas DataFrames进行数据管理,旨在简化系统、提高读取速度,避免MongoDB的复杂性。通过对象存储实现数据版本控制和一致性,解决了全局状态和冲突解决等数据管理挑战,最终发展出高效的时间序列数据存储解决方案ArcticDB。

演讲:如何构建无服务器数据库

InfoQ
InfoQ · 2026-01-07T14:50:00Z
强大的数据分析工具:轻松处理、转换、可视化 | 开源日报 No.833

Blaze 是一个扩展 NumPy 和 Pandas 接口的大数据工具,支持多种后端,便于数据查询和转换。WebGPT 在浏览器中运行 GPT 模型,支持高达 500M 参数的模型。ai-exploits 收集机器学习工具的漏洞,帮助安全专家识别脆弱性。Pandas 是强大的数据分析库,支持灵活的数据处理和统计功能。

强大的数据分析工具:轻松处理、转换、可视化 | 开源日报 No.833

开源服务指南
开源服务指南 · 2025-12-26T07:35:39Z
你应该尝试的5种轻量级Pandas替代品

本文介绍了五种轻量级Python库,作为Pandas的替代品,旨在加速数据分析和处理。这些库包括DuckDB(支持SQL查询)、Polars(快速数据处理)、PyArrow(列式数据读取)、Modin(并行计算)和Dask(大数据处理)。

你应该尝试的5种轻量级Pandas替代品

KDnuggets
KDnuggets · 2025-12-12T13:00:07Z
如何在Python中使用Polars库进行数据分析

本文介绍了Python中的Polars库,强调其与Pandas相似的语法和高效的数据处理能力。Polars支持并行计算和高效内存使用,适合数据操作。文章涵盖了安装、导入库、创建Series和DataFrame、读取CSV文件等基本操作,适合初学者。

如何在Python中使用Polars库进行数据分析

freeCodeCamp.org
freeCodeCamp.org · 2025-12-10T18:14:34Z
第712期:Python中的量子计算、数据框库、Django 6及更多(2025年12月9日)

量子计算和Python框架的最新进展包括Qiskit量子电路的基础知识。此外,Django 6.0推出了新特性,pandas面临Polars和DuckDB的竞争,Python社区讨论将Rust引入CPython。

第712期:Python中的量子计算、数据框库、Django 6及更多(2025年12月9日)

PyCoder’s Weekly
PyCoder’s Weekly · 2025-12-09T19:30:00Z
Lux + Pandas:懒惰分析师的自动可视化工具

Lux是一个与Pandas集成的Python库,能够自动生成数据可视化,简化数据分析,帮助分析师快速发现数据趋势和模式,适合初学者和快速研究,但不适合处理大型数据集。

Lux + Pandas:懒惰分析师的自动可视化工具

KDnuggets
KDnuggets · 2025-11-24T17:00:12Z
从数据集到数据框再到部署:使用Pandas和Scikit-learn的第一个项目

本文介绍了一个适合初学者的机器学习项目,构建回归模型预测员工收入。使用Pandas和Scikit-learn库处理缺失值、分割数据集、构建预处理管道,并训练随机森林回归模型,最后评估模型性能并保存训练好的模型。

从数据集到数据框再到部署:使用Pandas和Scikit-learn的第一个项目

KDnuggets
KDnuggets · 2025-11-07T13:00:24Z
第706期:类星体、伪造数据、无GIL网页及更多(2025年10月28日)

本文介绍了如何使用Polars、pandas和Matplotlib构建交互式marimo仪表板,以可视化类星体红移数据。用户将学习数据获取、清洗和展示,并创建实时更新的交互式UI组件。

第706期:类星体、伪造数据、无GIL网页及更多(2025年10月28日)

PyCoder’s Weekly
PyCoder’s Weekly · 2025-10-28T19:30:00Z
Pandas:复杂聚合的高级分组技术

本文介绍了Pandas库的高级分组技术,适用于复杂数据场景,包括多键分组、命名聚合和条件聚合等方法。强调选择合适的处理模式(如agg、transform、apply)以提高数据处理效率,确保输出清晰易测。

Pandas:复杂聚合的高级分组技术

KDnuggets
KDnuggets · 2025-10-21T14:00:02Z
处理大数据集的七个Pandas技巧

本文介绍了使用Pandas库处理大数据集的七个技巧:1. 使用chunksize分块加载数据;2. 降低数据类型以节省内存;3. 将重复字符串转换为分类数据;4. 使用Parquet格式高效保存数据;5. 通过groupby聚合统计;6. 使用query()和eval()进行高效过滤和计算;7. 利用向量化字符串操作进行列转换。这些方法能有效提高大数据集的处理效率。

处理大数据集的七个Pandas技巧

MachineLearningMastery.com
MachineLearningMastery.com · 2025-10-13T11:00:08Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码