小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
ParaRNN:大规模非线性递归神经网络,可并行训练

苹果研究人员提出了ParaRNN框架,显著提高了非线性递归神经网络(RNN)的训练效率,实现了大规模并行训练。该方法使得7亿参数的RNN在语言建模任务中表现出与变换器相当的性能,且通过引入牛顿法,ParaRNN在保持非线性表达能力的同时实现了高效的并行计算。这一进展为RNN的广泛应用和进一步研究提供了新的可能性。

ParaRNN:大规模非线性递归神经网络,可并行训练

Apple Machine Learning Research
Apple Machine Learning Research · 2026-04-23T00:00:00Z
GPU 计算的起源

GPU计算起源于三十年的政府资助研究,涵盖并行计算、图形系统和流处理等技术。这些研究推动了GPU的快速发展,使其成为现代数据中心和人工智能革命的核心。英伟达等公司将这些技术转化为实际应用,促进了深度学习的普及,GPU的高效计算能力支持了大规模数据集的处理,推动了机器学习的进步。

GPU 计算的起源

Tony Bai
Tony Bai · 2026-04-17T00:20:14Z

本文讨论了将单次点积扩展为批量点积的矩阵乘法,强调其在Transformer中的重要性。矩阵乘法通过并行计算显著提高了效率,尤其在GPU上。文章介绍了矩阵的基本定义、转置、乘法性质及其几何意义,强调了形状匹配的重要性,并指出矩阵乘法在深度学习中的广泛应用,如注意力机制和全连接层,揭示了其在AI计算中的核心地位。

【Transformer 与注意力机制】03 矩阵乘法的两种视角

土法炼钢兴趣小组的博客
土法炼钢兴趣小组的博客 · 2026-04-15T03:00:00Z

本文介绍了如何将CUDA与Go语言结合,以实现高性能计算。通过Sam Burns的演讲,展示了GPU在并行计算中的优势,特别是在矩阵乘法示例中,强调了Go语言处理大规模数据的潜力。

当 Go 遇上 GPU:用 CUDA 释放千倍算力的实战指南

Tony Bai
Tony Bai · 2026-01-20T23:31:17Z
为什么AI需要GPU和TPU:大型语言模型背后的硬件

Granola是一款AI笔记工具,帮助用户在会议中保持专注,将对话转化为实际进展。它支持生成任务、搜索项目对话和创建自定义提示,适用于多种会议应用。文章还讨论了GPU和TPU在现代大语言模型中的重要性,强调并行计算和内存带宽对AI性能的影响。

为什么AI需要GPU和TPU:大型语言模型背后的硬件

ByteByteGo Newsletter
ByteByteGo Newsletter · 2026-01-19T16:30:29Z

本文介绍了GPU加速Zarr的背景,强调zarr-python原生支持NVIDIA GPU,并可通过简单配置返回CuPy数组。指出Zarr的数据加载管道需优化,以避免成为性能瓶颈。Zarr作为n维数组存储格式,广泛应用于多个领域,支持本地和云存储。GPU编程需关注内存管理和数据传输,以实现高效并行计算。

GPU加速的Zarr

datasframe
datasframe · 2025-12-11T14:00:00Z
如何在Python中使用Polars库进行数据分析

本文介绍了Python中的Polars库,强调其与Pandas相似的语法和高效的数据处理能力。Polars支持并行计算和高效内存使用,适合数据操作。文章涵盖了安装、导入库、创建Series和DataFrame、读取CSV文件等基本操作,适合初学者。

如何在Python中使用Polars库进行数据分析

freeCodeCamp.org
freeCodeCamp.org · 2025-12-10T18:14:34Z
即时超级计算:启动 Wolfram 计算服务

Wolfram Compute Services 允许用户轻松扩展计算能力。通过 RemoteBatchSubmit,用户可以将计算任务发送到云端,自动处理依赖关系,支持多种机器配置,适合不同预算,简化大规模并行计算,用户可实时监控任务进度和结果,显著提升计算效率。

即时超级计算:启动 Wolfram 计算服务

Stephen Wolfram Writings
Stephen Wolfram Writings · 2025-12-02T19:23:40Z

本文系统梳理了Linux并行计算的核心知识,包括基础概念、工具、编程模型和监控方法,适合开发者和科研人员。并行计算通过将复杂任务分解为子任务,利用多核CPU和分布式架构提高效率。Linux支持多种并行编程模型,如OpenMP和MPI,适用于不同场景。

并行计算在 Linux 系统中的实践:从工具到编程模型全解析

极客技术博客’s Blog
极客技术博客’s Blog · 2025-11-21T10:00:12Z
GIL的终结对Python意味着什么?

GIL的拆除将改变Python的编程方式。PEP 703引入可选的GIL构建,允许开发者根据需求选择使用GIL。这将提升Python在多线程和并行计算中的性能,促进数据科学和AI的发展,同时也带来并发错误管理的新挑战。未来的Python将更加高效灵活。

GIL的终结对Python意味着什么?

KDnuggets
KDnuggets · 2025-11-10T17:00:48Z
超级增强AI模型构建:使用Ray和Databricks的数据与任务并行

并行计算在零售AI中提升了销售预测的准确性。Pilot公司通过Databricks和Ray实现高效数据处理与模型训练,快速响应新数据,显著提高业务效率。模型训练时间从近3小时缩短至30分钟,充分利用计算资源,改善客户体验。

超级增强AI模型构建:使用Ray和Databricks的数据与任务并行

Databricks
Databricks · 2025-11-06T19:50:54Z

RSTSR是一个高维张量处理框架,类似于Python的NumPy/SciPy,旨在支持科学计算。它高效、友好且可扩展,支持多种后端和并行计算。目前已实现基本功能,未来计划支持GPU,欢迎社区参与和反馈。

RSTSR v0.6:科学计算矩阵与高维张量库

Rust.cc
Rust.cc · 2025-11-03T07:45:05Z
IBM Cloud Code Engine支持GPU的无服务器集群:高性能AI与并行计算

IBM Cloud Code Engine推出支持GPU的无服务器集群,简化了大规模计算密集型工作负载的管理。该平台自动处理基础设施,提供高性能计算资源,支持弹性扩展,用户仅为实际使用的资源付费。这一创新提升了数据科学家和开发者的工作效率,增强了企业在AI和复杂模拟领域的竞争力。

IBM Cloud Code Engine支持GPU的无服务器集群:高性能AI与并行计算

InfoQ
InfoQ · 2025-10-16T10:00:00Z
使用Numba和CUDA在Python中编写您的第一个GPU内核

GPU适合处理相同操作的多数据,利用CUDA和Numba可以在Python中编写并行计算的CUDA内核。通过向量加法示例,展示了GPU加速的显著优势,显著提升了处理速度。

使用Numba和CUDA在Python中编写您的第一个GPU内核

KDnuggets
KDnuggets · 2025-08-18T16:00:35Z
一、并行编程导论与CUDA入门

随着人工智能的发展,CUDA在矩阵和张量计算中变得愈发重要。CUDA是NVIDIA的并行计算平台,支持C/C++语法,通过SIMT模式实现多线程并行计算。CPU负责数据准备和结果整理,GPU则进行高效的并行计算,广泛应用于深度学习和科学计算。

一、并行编程导论与CUDA入门

张小凯的博客
张小凯的博客 · 2025-07-29T09:41:50Z
除了真正的并行处理和大数据,esProc SPL 的简洁性让 Python 相形见绌

esProc SPL通过内置游标和简化的并行计算,提供比Python更高效的数据处理解决方案,代码更简洁,适合数据分析师,尤其在复杂操作中表现优越。

除了真正的并行处理和大数据,esProc SPL 的简洁性让 Python 相形见绌

DEV Community
DEV Community · 2025-05-15T06:47:36Z

斯坦福大学CS336课程探讨了多机优化与并行计算,重点在于如何在多个GPU上训练大型模型。随着模型规模的增加,单个GPU无法满足需求,因此需要通过多机并行提高计算和内存效率。课程涵盖了数据并行、模型并行和激活并行等不同策略,并强调了通信成本和内存管理的重要性。最终,结合多种并行方法以实现高效训练至关重要。

斯坦福大学CS336课程:从零开始的语言建模 | 2025年春季 | 并行计算1

Josherich的博客
Josherich的博客 · 2025-05-13T00:00:01Z

数据是企业竞争优势的重要资产。随着技术进步,数据收集和存储变得更容易,但庞大的数据量导致处理速度减慢。Dask是一个强大的Python库,支持并行计算,能够高效处理大数据集。本文介绍如何使用Dask建立端到端的数据管道,包括数据库设置、CSV数据导入和数据转换等步骤,帮助数据专业人士提升处理能力。

使用Dask构建端到端的数据管道

KDnuggets
KDnuggets · 2025-05-05T14:00:04Z
单线程 JavaScript:过去、现在与多线程执行的未来可能性

JavaScript 是单线程的,旨在保持简单性和安全性。尽管 Web Workers 和 Worker Threads 提供了并行计算的可能性,但完全多线程的 JavaScript 仍面临复杂性和兼容性问题。未来可能会有更好的多线程抽象和安全的共享内存模型,但核心仍将保持单线程。

单线程 JavaScript:过去、现在与多线程执行的未来可能性

DEV Community
DEV Community · 2025-04-21T04:24:42Z

Dask是一个强大的Python库,专为处理大规模数据而设计。它通过将数据分割并进行并行计算,解决了传统CSV文件在内存中处理的困难。Dask支持懒惰求值,优化计算效率,适合处理超大数据集。本文介绍了如何使用Dask读取和处理CSV文件,进行数据过滤和计算。

使用Dask处理超大内存的CSV文件目录

KDnuggets
KDnuggets · 2025-03-25T16:00:41Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码