小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

本文讨论了大规模模型训练中的并行化技术,特别是671B MoE模型的训练挑战。随着模型规模的增加,单卡显存不足以支持训练,因此需要采用数据并行、张量并行和流水线并行等多种策略。文章分析了显存消耗、通信成本及不同并行策略的优缺点,并强调了优化通信与计算重叠的重要性。最后,提出了针对不同规模模型的并行配置建议。

【大模型基础设施工程】06:3D 并行深度——数据 / 张量 / 流水 / 序列 / ZeRO

土法炼钢兴趣小组的博客
土法炼钢兴趣小组的博客 · 2026-04-22T00:00:00Z

Apache TVM 更新至 0.21.0 版本,中文文档已同步。TVM 是一个支持多种硬件的深度学习编译框架。文章中展示了原始张量函数的实现,特别是逐元素加法,强调了循环嵌套和计算语句的重要性。TensorIR 中的块和迭代注解有助于程序的变换和优化。

【TVM教程】张量程序抽象

HyperAI超神经
HyperAI超神经 · 2026-02-25T07:50:07Z
刷屏全网的“nano-banana”API接入指南!0.1元/张量产高清创意图,开发者必藏

“纳米香蕉”API因其低成本、高稳定性和强扩展性受到开发者青睐,支持多图融合、快速生成和多轮编辑,适用于内容创作、电商营销和娱乐等场景。通过ACE Data Platform接入,用户可享受更友好的成本和更高的可用性。

刷屏全网的“nano-banana”API接入指南!0.1元/张量产高清创意图,开发者必藏

静觅
静觅 · 2026-01-16T11:36:16Z
谷歌的张量处理单元(TPU)是如何工作的?

TPU(张量处理单元)是谷歌为深度学习设计的专用芯片,采用脉动阵列结构,显著提升计算效率。通过减少数据移动和优化矩阵运算,TPU解决了计算瓶颈,支持大规模语言模型的训练与推理。

谷歌的张量处理单元(TPU)是如何工作的?

ByteByteGo Newsletter
ByteByteGo Newsletter · 2026-01-05T16:31:12Z
使用张量并行在多个GPU上训练大型模型

张量并行是一种模型并行技术,通过在特定维度上分割张量,将计算分配到多个设备,适用于参数量巨大的模型。本文介绍了在PyTorch中实现张量并行的设计和训练步骤。

使用张量并行在多个GPU上训练大型模型

MachineLearningMastery.com
MachineLearningMastery.com · 2025-12-31T21:22:39Z

记忆张量与商汤大装置联合推出的国产GPGPU推理集群,性价比超越NVIDIA A100,提升了吞吐量和并发能力。通过“记忆—计算—调度”一体化设计,突破了传统性能限制,推动了大模型的商业化进程,标志着国产算力体系的重大进步。

记忆张量 × 商汤大装置:国产 GPGPU 推理成本反超 A100!

量子位
量子位 · 2025-12-04T03:07:42Z
谷歌也准备将TPU张量计算单元发射到太空构建数据中心 利用太阳能发电

谷歌计划在2027年前发射TPU张量计算单元卫星,利用太阳能在太空建立数据中心,以降低电力成本并推动人工智能发展。该项目名为阳光捕手,旨在利用太空清洁能源,但需解决通信和辐射耐受性等挑战。

谷歌也准备将TPU张量计算单元发射到太空构建数据中心 利用太阳能发电

蓝点网
蓝点网 · 2025-11-05T02:25:01Z

RSTSR是一个高维张量处理框架,类似于Python的NumPy/SciPy,旨在支持科学计算。它高效、友好且可扩展,支持多种后端和并行计算。目前已实现基本功能,未来计划支持GPU,欢迎社区参与和反馈。

RSTSR v0.6:科学计算矩阵与高维张量库

Rust.cc
Rust.cc · 2025-11-03T07:45:05Z

CuTe张量通过引擎和布局参数化,支持多种迭代器和布局。算术元组张量用于计算元素坐标,生成坐标时不占用额外存储。其布局代数适用于算术元组步幅,确保计算高效。

CuTe 算术元组张量

Lei Mao's Log Book
Lei Mao's Log Book · 2025-10-20T07:00:00Z
扩展大型语言模型推理:张量并行、上下文并行和专家并行的创新

Meta通过先进的并行技术,如张量并行、上下文并行和专家并行,持续优化大型语言模型(LLM)推理系统,提高资源效率、吞吐量和延迟,解决大规模实时推理的挑战,推动AI应用的发展。

扩展大型语言模型推理:张量并行、上下文并行和专家并行的创新

Engineering at Meta
Engineering at Meta · 2025-10-17T16:00:50Z

CuTe线程值布局(TV布局)用于将张量划分为小张量,使线程组中的每个线程按照特定模式访问数据。TV布局将线程与数据坐标映射,便于分块复制和MMA操作。反向TV布局则将数据元素坐标映射到线程索引,以验证数据访问模式。CuTe TV分区通过计算线程坐标简化了数据访问过程。

CuTe线程值布局

Lei Mao's Log Book
Lei Mao's Log Book · 2025-10-13T07:00:00Z
张量如何改变生命科学中的搜索

生命科学领域面临复杂数据处理的挑战,传统搜索工具难以应对。生成性AI通过深度检索和多源数据连接,提高研究效率。张量作为多维数据容器,帮助AI理解复杂关系,应用于蛋白质结构和医学影像,推动精准医疗和新药发现。AI代理实时监测和分析信息,助力生命科学进入新纪元。

张量如何改变生命科学中的搜索

The New Stack
The New Stack · 2025-08-25T16:00:24Z
超越向量搜索:转向基于张量的检索

随着AI应用的发展,传统的向量搜索已无法满足需求,张量因其多维结构和上下文保留能力,成为更优选择。张量支持复杂检索、实时更新和个性化排序,有效处理混合数据,提升AI应用性能和准确性。

超越向量搜索:转向基于张量的检索

The New Stack
The New Stack · 2025-08-15T14:05:43Z

CuTe中的local_tile函数用于在线程块级别将张量划分为小块,并根据线程块坐标进行切片。与local_partition相比,local_tile更易于理解,且无需复杂的数学运算。它通过inner_partition实现,适合将较大问题分解为多个小问题,从而简化坐标计算。

CuTe局部切片

Lei Mao's Log Book
Lei Mao's Log Book · 2025-08-01T07:00:00Z

CuTe的local_partition函数用于根据线程索引对张量进行分区和切片,简化了张量切片过程,确保不同布局下的线程有效访问全局内存,避免复杂坐标计算,从而提升编程效率。

CuTe局部分区

Lei Mao's Log Book
Lei Mao's Log Book · 2025-07-25T07:00:00Z
【Rust日报】2025-07-19 Burn - 深度学习框架和张量库 | CubeCL - Rust 开发 GPU 计算内核

Burn是一个用Rust构建的深度学习框架,最新版本0.18.0在多平台矩阵乘法和动态图优化方面取得了重要进展。同时发布的CubeCL 0.6.0旨在简化跨硬件计算内核的编写。Figma通过内存优化显著提升了文件加载速度。Clip-Vault是一个开源的跨平台剪贴板管理器,支持无限历史记录和隐私保护。

【Rust日报】2025-07-19 Burn - 深度学习框架和张量库 | CubeCL - Rust 开发 GPU 计算内核

Rust.cc
Rust.cc · 2025-07-20T08:50:54Z

机器之心数据服务现已上线,提供高效稳定的数据获取,简化爬取流程。

「记忆张量」科技获近亿元天使轮融资,打造开源记忆操作系统MemOS

机器之心
机器之心 · 2025-06-18T03:05:06Z
Vulkan 1.4.317 发布,引入 VP9 视频解码、ARM 张量和 8 位浮点数

Vulkan 1.4.317正式发布,新增VP9视频解码和8位浮点支持等扩展,主要包括VK_KHR_video_decode_vp9、VK_EXT_shader_float8和VK_KHR_unified_image_layouts,旨在简化同步和支持机器学习。

Vulkan 1.4.317 发布,引入 VP9 视频解码、ARM 张量和 8 位浮点数

实时互动网
实时互动网 · 2025-06-09T02:17:36Z

Triton 是一种基于 Python 的并行编程语言和编译器,旨在高效编写自定义 DNN 计算内核,并在现代 GPU 上运行。其核心数据结构为张量,支持多种操作和函数,简化编程过程。

【Triton 教程】triton_language.tensor

HyperAI超神经
HyperAI超神经 · 2025-05-20T03:03:03Z
使用PIL图像、PyTorch张量和NumPy数组的转换

本文介绍了如何在Python中使用PIL、PyTorch和NumPy进行图像转换,包括从PIL图像到PyTorch张量和NumPy数组的转换示例及其反向操作。

使用PIL图像、PyTorch张量和NumPy数组的转换

DEV Community
DEV Community · 2025-05-13T23:35:01Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码