小红花·文摘

ParaRNN：大规模非线性递归神经网络，可并行训练

Apple Machine Learning Research ·

GPU 计算的起源

Tony Bai ·

本文介绍了如何将CUDA与Go语言结合，以实现高性能计算。通过Sam Burns的演讲，展示了GPU在并行计算中的优势，特别是在矩阵乘法示例中，强调了Go语言处理大规模数据的潜力。

当 Go 遇上 GPU：用 CUDA 释放千倍算力的实战指南

Tony Bai ·

为什么AI需要GPU和TPU：大型语言模型背后的硬件

ByteByteGo Newsletter ·

本文介绍了GPU加速Zarr的背景，强调zarr-python原生支持NVIDIA GPU，并可通过简单配置返回CuPy数组。指出Zarr的数据加载管道需优化，以避免成为性能瓶颈。Zarr作为n维数组存储格式，广泛应用于多个领域，支持本地和云存储。GPU编程需关注内存管理和数据传输，以实现高效并行计算。

GPU加速的Zarr

datasframe ·

如何在Python中使用Polars库进行数据分析

freeCodeCamp.org ·

即时超级计算：启动 Wolfram 计算服务

Stephen Wolfram Writings ·

本文系统梳理了Linux并行计算的核心知识，包括基础概念、工具、编程模型和监控方法，适合开发者和科研人员。并行计算通过将复杂任务分解为子任务，利用多核CPU和分布式架构提高效率。Linux支持多种并行编程模型，如OpenMP和MPI，适用于不同场景。

并行计算在 Linux 系统中的实践：从工具到编程模型全解析

极客技术博客’s Blog ·

GIL的终结对Python意味着什么？

KDnuggets ·

超级增强AI模型构建：使用Ray和Databricks的数据与任务并行

Databricks ·

RSTSR是一个高维张量处理框架，类似于Python的NumPy/SciPy，旨在支持科学计算。它高效、友好且可扩展，支持多种后端和并行计算。目前已实现基本功能，未来计划支持GPU，欢迎社区参与和反馈。

RSTSR v0.6：科学计算矩阵与高维张量库

Rust.cc ·

IBM Cloud Code Engine支持GPU的无服务器集群：高性能AI与并行计算

InfoQ ·

使用Numba和CUDA在Python中编写您的第一个GPU内核

KDnuggets ·

一、并行编程导论与CUDA入门

张小凯的博客 ·

除了真正的并行处理和大数据，esProc SPL 的简洁性让 Python 相形见绌

DEV Community ·

斯坦福大学CS336课程探讨了多机优化与并行计算，重点在于如何在多个GPU上训练大型模型。随着模型规模的增加，单个GPU无法满足需求，因此需要通过多机并行提高计算和内存效率。课程涵盖了数据并行、模型并行和激活并行等不同策略，并强调了通信成本和内存管理的重要性。最终，结合多种并行方法以实现高效训练至关重要。