小红花·文摘

如何在Go中查找前K个元素：堆和流处理方法

freeCodeCamp.org ·

Curvine是一款基于Rust的分布式缓存系统，专注于文件缓存，具备高并发和低延迟的特点，适用于大数据处理和AI训练，旨在解决计算性能与存储IO之间的瓶颈。

高性能分布式缓存Curvine开源

Rust.cc ·

该岗位负责美团可观测平台的技术方案设计与维护，要求本科及以上学历，熟悉Java/Golang/Rust等语言，具备分布式系统构建经验，良好的沟通能力和团队协作精神，热爱大数据处理，监控系统开发经验者优先。

美团招聘Rust开发工程师 base北京/上海（社招/校招实习）

Rust.cc ·

将Hadoop工作负载迁移到AWS：从本地HDFS、Spark、Kafka和Airflow迁移到AWS S3、Iceberg和EMR

DEV Community ·

2025年数据科学工具趋势显示，PySpark和Numba在大数据处理中的重要性上升，D3.js和Plotly在数据可视化中的应用增加，Streamlit和MLflow在应用开发与模型部署中受到关注，OpenRefine简化数据清理，Google Cloud Platform（GCP）快速增长。这些工具因其创新性和解决业务挑战的能力而变得越来越重要。

数据科学对决：2025年哪些工具将崭露头角

KDnuggets ·

本文介绍了10个PySpark命令，以加速Python项目中的大数据处理。内容涵盖数据加载、选择与过滤、分组聚合、窗口函数、连接操作、自定义函数、透视表、处理缺失值、保存数据集和执行SQL查询，并提供示例代码供读者在Jupyter或Google Colab中实践。

10个大数据处理必备的PySpark命令

KDnuggets ·

文章介绍了如何使用Jolt代码简化大数据处理，通过去除JSON数据中的空值来提高效率。Jolt代码专为大数据流设计，使用简单。示例展示了移除空值如何改善数据处理的准确性和效率。

2分钟修复空值：使用Jolt代码清理JSON数据

DEV Community ·

机器编码轮是技术面试中的一种挑战，常用于软件开发、数据工程和机器学习等职位。它强调在有限时间内设计和实现完整解决方案，要求掌握编码模式、数据结构和设计，注重代码质量和可读性。通过模拟面试练习模块化设计和边界情况处理，提升算法实现和大数据处理能力，为职业发展铺路。

机器编码轮——如何破解及其要点

DEV Community ·

GBase 8c是一种高性能、高可用性和安全的数据库管理系统，支持SQL标准，广泛用于大数据处理和分析。它支持多种存储引擎，包括行存储、列存储和内存存储。本文介绍了使用行存储引擎的典型OLTP场景的SQL语法，帮助用户更好地理解和利用GBase数据库。

GBase 8c 行存储引擎语法概述

DEV Community ·

GBase 8c是一种高性能、高可用性和安全的数据库管理系统，广泛用于大数据处理和分析。它支持标准SQL语法，使用户能够轻松执行数据操作和查询。本文介绍了GBase 8c的SQL语法，帮助用户更好地理解和利用系统。

GBase 8c 语法概览

DEV Community ·

深入机器学习：精选免费编程资源集锦

DEV Community ·

基于Python和Flink的酒店数据分析

厦大数据库实验室博客 ·

2023年11月29日，西安财经大学数学学院的数据科学系全体毕业论文指导老师讨论了2020级数据科学与大数据技术专业的毕业论文选题，确定了数据挖掘与机器学习应用、大数据处理与分析技术、数据可视化与交互技术、数据隐私与安全技术以及大数据产业与应用趋势等几个方向。提供了14个具体选题的参考，如基于Hadoop和Hive的在线社交网络情感分析、基于大数据的物流网络和货运路线优化等。

数据科学与大数据技术专业毕业论文选题

厦大数据库实验室博客 ·

Apache Spark是一个强大的开源分布式计算系统，具有速度快、易于使用、容错性强等优势。它包括Spark Core、Spark SQL、Spark Streaming、MLlib、GraphX和SparkR等组件，可用于大数据处理、机器学习、实时分析和图处理等领域。

Apache Spark：释放大数据力量

极道 ·

保罗·拉姆齐：数据科学正在变得“鸭子化”

Planet PostgreSQL ·

Apache Arrow是一个用于内存分析的开发平台，支持高效的大数据处理和移动。Arrow定义了高压缩比的列式存储格式，并提供多种编程语言的实现。Arrow还包括通信传输和磁盘存储的子项目，方便数据传输和存储。Arrow格式规范向后兼容。

Go语言开发者的Apache Arrow使用指南：数据类型

Tony Bai ·

Spark Core是Apache Spark的核心组件之一，提供了易于编程、高速计算、迭代计算等特点的分布式计算能力，可直接从多种数据源中读取数据。其基本数据结构为RDD，可进行大规模数据并行处理，具有容错性和基于主存进行缓存的特点。Spark Core采用内存计算模式，减少了I/O瓶颈，提高了计算速度。