小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

本文讨论了PyTorch AOTInductor如何将具有混合设备执行计划的PyTorch导出程序编译成单个可执行包,该包可在CPU和GPU上运行模型,无需手动拆分模型。示例展示了如何使用AOTInductor编译和加载模型,并通过性能分析验证混合执行的有效性。

PyTorch AOTInductor 混合降级

Lei Mao's Log Book
Lei Mao's Log Book · 2026-05-28T07:00:00Z

本文讨论了如何在PyTorch中使用Triton内核进行透明追踪和编译。用户可以通过@triton.jit创建Triton内核,并利用torch.compile和torch.export进行优化。注册的自定义操作可以在追踪和编译中被识别,而未注册的操作需使用TorchDynamo进行追踪。最终,Triton内核可通过AOTInductor进行预编译,以提升性能。

PyTorch Triton内核的透明追踪与编译

Lei Mao's Log Book
Lei Mao's Log Book · 2026-05-22T07:00:00Z
你的显卡能跑多少算子?用 55 个检查项,给 PyTorch GPU 环境做一次冒烟测试 - 曦远Code

在Windows上使用RX 6650 XT运行自编译的ROCm和PyTorch时,LLM推理加速不明显,GPU利用率低。通过Python脚本检查PyTorch操作,发现54个操作返回CUDA/HIP张量,但性能未必高。常见问题包括MIOpen编译错误和显存不足,建议使用torch.profiler进行性能分析。

你的显卡能跑多少算子?用 55 个检查项,给 PyTorch GPU 环境做一次冒烟测试 - 曦远Code

程序设计实验室
程序设计实验室 · 2026-05-21T02:09:00Z

PyTorch的torch.export API可以生成深度学习模型的标准化表示,适用于无Python环境的部署。随着模型复杂性的增加,开发者需要验证大型模型是否能成功导出为GPU程序。为此,PyTorch提供了使用假张量构建假模型的方法,以验证导出兼容性。通过在FakeTensorMode中创建模型,开发者可以在不同设备上测试模型导出,确保无实际数据分配。

PyTorch假导出

Lei Mao's Log Book
Lei Mao's Log Book · 2026-05-17T07:00:00Z

本文介绍了如何在PyTorch中实现自定义操作,包括使用C++和CUDA编写自定义函数和类。通过示例代码,展示了如何注册和使用这些自定义操作,确保它们在PyTorch模型和AOTInductor编译的推理程序中正常工作,并讨论了模型导出及推理验证。

PyTorch自定义操作

Lei Mao's Log Book
Lei Mao's Log Book · 2026-05-10T07:00:00Z
ROCm on Windows 性能排查:RX 6650 XT 跑 PyTorch,为什么加速不明显? - 曦远Code

作者在Windows上使用RX 6650 XT显卡自编译ROCm和PyTorch进行深度学习。尽管torch.cuda.is_available()返回True,但GPU加速效果不佳,仅为1.7-2.0倍。主要原因包括自回归解码效率低、小模型在内存访问上的瓶颈,以及未启用高性能路径。建议进一步研究以优化性能。

ROCm on Windows 性能排查:RX 6650 XT 跑 PyTorch,为什么加速不明显? - 曦远Code

程序设计实验室
程序设计实验室 · 2026-05-09T05:41:00Z
PyTorch与TensorFlow:2026年选择合适的框架

选择PyTorch或TensorFlow时,关键在于项目需求。PyTorch适合研究和实验,因其动态计算图和直观的Python API,广泛用于自然语言处理和强化学习。TensorFlow在生产部署和企业环境中表现优越,提供成熟的工具和优化支持。选择应基于具体应用场景和团队背景。

PyTorch与TensorFlow:2026年选择合适的框架

The JetBrains Blog
The JetBrains Blog · 2026-05-04T10:07:20Z

最近发布了用Rust编写的轻量级自动微分库ferris-grad。该库具有PyTorch风格的自动求导引擎,核心代码不到1000行,且无外部依赖。实现包括标量计算图、张量操作和神经网络层,支持训练多层感知机和mini GPT。项目灵感来源于Karpathy的micrograd和microgpt,欢迎参与贡献。

1000行Rust实现一个类似pytorch的轻量级自动微分库

Rust.cc
Rust.cc · 2026-04-19T14:10:58Z

本文介绍了机器学习中自动微分的实现方法,通过将复杂函数拆解为基本运算构建计算图,以精确高效地计算导数。文章还展示了反向传播、梯度更新及优化器的实现,并提供了一个类似PyTorch的开源框架。

自動微分 | DIY 實現自己的 PyTorch

Louis Aeilot's Blog
Louis Aeilot's Blog · 2026-04-12T23:45:09Z
PyTorch基金会通过Safetensors、ExecuTorch和Helion扩展AI生态系统

在巴黎的PyTorch大会上,PyTorch基金会宣布了三个新项目:Safetensors、ExecuTorch和Helion,旨在增强开源AI的安全性和效率。Safetensors提供安全的模型分发,ExecuTorch简化边缘设备上的模型运行,Helion则简化机器学习内核的开发。这标志着PyTorch在开源AI领域的进一步发展。

PyTorch基金会通过Safetensors、ExecuTorch和Helion扩展AI生态系统

The New Stack
The New Stack · 2026-04-09T19:18:44Z
CNCF与PyTorch社区齐聚KubeCon + CloudNativeCon中国2026:征集提案现已开放

2026年9月8日至9日,上海将举办KubeCon + CloudNativeCon + OpenInfra Summit Asia + PyTorch Conference China,汇聚云原生、开放基础设施和AI社区。活动欢迎开发者和企业领导分享经验,讨论技术挑战。提案征集已开放,截止日期为2026年5月3日,注册也已开始,提供多种通行证类型。

CNCF与PyTorch社区齐聚KubeCon + CloudNativeCon中国2026:征集提案现已开放

Cloud Native Computing Foundation
Cloud Native Computing Foundation · 2026-04-09T14:19:42Z

在将PyTorch模型转换为图时,控制流可能导致图断裂。使用符号整数(SymInts)可以表示动态形状,允许模型根据输入动态调整。代理张量和直接使用输入张量两种方法各有优缺点,代理张量语法更规范,但可能效率较低。

PyTorch图符号整数

Lei Mao's Log Book
Lei Mao's Log Book · 2026-04-05T07:00:00Z

PyTorch 2引入torch.export功能,允许将模型导出为静态图以优化推理性能。自定义操作可通过无状态的torch.ops或有状态的torch.classes定义。导出时需避免数据依赖形状和控制流,以确保模型可静态表示。导出的模型可在Python中保存和加载,但在C++中需使用AOTInductor或Executorch进行优化和编译,确保模型无图断裂是推理的关键。

PyTorch 导出

Lei Mao's Log Book
Lei Mao's Log Book · 2026-03-31T07:00:00Z
AutoKernel揭秘:PyTorch模型GPU内核全自动加速器

AutoKernel是一个自动化工具,旨在优化PyTorch模型的GPU性能。它通过分析瓶颈、提取内核并自动修改代码,显著提高实验效率,减轻开发者负担。该工具结合了Karpathy的autoresearch理念,实现了持续的性能提升,展示了智能体在科研中的潜力。

AutoKernel揭秘:PyTorch模型GPU内核全自动加速器

极道
极道 · 2026-03-21T23:14:00Z
depyf:为机器学习研究人员打开PyTorch编译器的黑箱

PyTorch 2.x引入了编译器以加速深度学习程序,但研究人员在适应过程中面临挑战。为此,推出了depyf工具,它可以将PyTorch生成的字节码反编译为源代码,帮助用户逐行调试并加深对底层过程的理解。

depyf:为机器学习研究人员打开PyTorch编译器的黑箱

Apple Machine Learning Research
Apple Machine Learning Research · 2026-02-24T00:00:00Z
Mooncake正式加入PyTorch生态系统

Mooncake正式加入PyTorch生态系统,专注于开放治理和与PyTorch社区的长期合作。它提供高效的通信和存储基础设施,支持分散的LLM架构,提升推理性能。Mooncake的功能包括预填充与解码分离、全局KVCache重用、弹性专家并行和容错分布式后端,已被多家知名企业广泛采用。

Mooncake正式加入PyTorch生态系统

Home | KVCache.ai
Home | KVCache.ai · 2026-02-12T00:00:00Z
Windows + AMD 显卡,终于能用 PyTorch 炼丹了 - 曦远Code

作者在 Windows 11 上成功编译了 ROCm 版的 PyTorch,使用了官方 ROCm 软件包和较旧的 PyTorch 2.9.1 版本,避免了许多问题,并安装了相关库以进行深度学习和 AI 画图实验。

Windows + AMD 显卡,终于能用 PyTorch 炼丹了 - 曦远Code

程序设计实验室
程序设计实验室 · 2026-02-06T07:53:00Z
Windows + AMD ROCm + PyTorch:debuff拉满的6650xt A卡炼丹折腾经历 - 曦远Code

本文记录了作者在Windows 11上使用AMD RX 6650 XT显卡、ROCm和PyTorch进行AI绘图的尝试,尽管遇到多次编译错误,作者计划持续更新,直至成功或放弃。

Windows + AMD ROCm + PyTorch:debuff拉满的6650xt A卡炼丹折腾经历 - 曦远Code

程序设计实验室
程序设计实验室 · 2026-02-05T08:47:00Z
摩尔线程开源TorchCodec-MUSA,全功能GPU加速PyTorch多模态训练

摩尔线程开源了TorchCodec-MUSA,实现了PyTorch编解码库的硬件适配,支持无缝迁移至国产GPU,提升视频处理效率,简化开发流程,降低使用门槛,推动国产GPU在AI训练中的应用。

摩尔线程开源TorchCodec-MUSA,全功能GPU加速PyTorch多模态训练

实时互动网
实时互动网 · 2026-01-22T06:12:48Z
PyTorch 2.10 发布,针对 AMD ROCm 和 Intel GPU 进行了更多改进

PyTorch 2.10 发布,增强了对 Intel GPU、AMD ROCm 和 NVIDIA CUDA 的支持,新增功能和性能优化,包括对 Python 3.14 的支持及改进的调试功能。

PyTorch 2.10 发布,针对 AMD ROCm 和 Intel GPU 进行了更多改进

实时互动网
实时互动网 · 2026-01-22T02:12:20Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码