大数据应用与技术探索：从理论到实践的全面解析 - 小红花·文摘 - 小红花技术领袖俱乐部

大数据技术的演进：从 Hive、GFS 到 Raft

大数据技术的演进：从 Hive、GFS 到 Raft

御坂研究所 ·

粤港澳大湾区大数据研究院词元经济联合创新应用中心在深圳揭牌成立

粤港澳大湾区大数据研究院词元经济联合创新应用中心在深圳揭牌成立

全球TMT-美通国际 ·

百融智能 x 湖北大数据集团：数据要素价值释放，正在走向结果交付

百融智能 x 湖北大数据集团：数据要素价值释放，正在走向结果交付

mongona news ·

第28期大数据师资培训班将于2026年8月在泉州举行，旨在提升中国高校大数据课程的教学水平。培训内容包括课程知识体系、授课方法和实验环境搭建，帮助教师建立整体认识，促进大数据人才的培养。

第28期大数据师资培训班报名主页（Hadoop+Spark+实战案例班，暑假，泉州，2026年8月6日-13日）

厦大数据库实验室博客 ·

DuckDB 是一个适用于 Python 开发者的嵌入式分析数据库，支持直接用 SQL 查询 CSV 和 Parquet 文件，无需加载到内存，安装简单。它提供 SQL API 和 Relational API 两种查询方式，能高效处理大数据集，性能通常比 pandas 快 5 到 15 倍。DuckDB 通过 Apache Arrow 格式实现零拷贝，适合分析聚合任务，最佳实践是结合使用 DuckDB 和 pandas。

读：DuckDB for Python Developers

暗无天日 ·

伊丽莎白·加雷特·克里斯滕森：使用Apache AGE在Postgres中进行图形查询

伊丽莎白·加雷特·克里斯滕森：使用Apache AGE在Postgres中进行图形查询

Planet PostgreSQL ·

一条短信，把我对“大数据”的认知狠狠干碎了

一条短信，把我对“大数据”的认知狠狠干碎了

如有乐享 ·

Pandas在处理小数据集时表现良好，但在大数据处理上效率低下。Polars是基于Rust的DataFrame库，支持并行计算和延迟评估，显著提高性能。在处理大规模数据时，Polars表现出5-10倍的速度优势，适合数据科学家解决性能问题。

使用Polars替代Pandas：性能深入分析

KDnuggets ·

加一人物系列：让-巴蒂斯特·奥诺弗雷

加一人物系列：让-巴蒂斯特·奥诺弗雷

The Apache Software Foundation Blog ·

游戏版大数据杀熟？索尼PS游戏商店面向不同用户会提供不同的折扣价格

游戏版大数据杀熟？索尼PS游戏商店面向不同用户会提供不同的折扣价格

蓝点网 ·

PL/Python扩展使DWS数据库能够直接使用Python，简化复杂运算和数据处理。通过Fenced模式确保安全性和资源控制，支持Pandas、Numpy等库，提高开发效率，适合AI和大数据应用，为数据仓库提供强大的算法处理能力。

进阶指南：在 DWS 中利用 PL/Python 解锁数据库无限可能

华为云官方博客 ·

如何优化PySpark作业：理解逻辑计划的实际场景

如何优化PySpark作业：理解逻辑计划的实际场景

freeCodeCamp.org ·

在Python中处理十亿行数据集（使用Vaex）

在Python中处理十亿行数据集（使用Vaex）

KDnuggets ·

自主大数据优化：多智能体强化学习实现自调节Apache Spark

自主大数据优化：多智能体强化学习实现自调节Apache Spark

InfoQ ·

如何在Python中使用ORC文件格式 - 带示例的指南

如何在Python中使用ORC文件格式 - 带示例的指南

freeCodeCamp.org ·

2026年社区优于代码欧洲大会将在苏格兰格拉斯哥举行

2026年社区优于代码欧洲大会将在苏格兰格拉斯哥举行

The Apache Software Foundation Blog ·

从零开始大数据

从零开始大数据

Sekyoro的博客小屋 ·

科幻终端模拟器：黑客风格炫酷狂拽！ | 开源日报 No.845

科幻终端模拟器：黑客风格炫酷狂拽！ | 开源日报 No.845

开源服务指南 ·

强大的数据分析工具：轻松处理、转换、可视化 | 开源日报 No.833

强大的数据分析工具：轻松处理、转换、可视化 | 开源日报 No.833

开源服务指南 ·

即使是初学者也能在Python中处理大数据集的方法

即使是初学者也能在Python中处理大数据集的方法

KDnuggets ·