小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

本文讨论了PyTorch AOTInductor如何将具有混合设备执行计划的PyTorch导出程序编译成单个可执行包,该包可在CPU和GPU上运行模型,无需手动拆分模型。示例展示了如何使用AOTInductor编译和加载模型,并通过性能分析验证混合执行的有效性。

PyTorch AOTInductor 混合降级

Lei Mao's Log Book
Lei Mao's Log Book · 2026-05-28T07:00:00Z

本文讨论了如何在PyTorch中使用Triton内核进行透明追踪和编译。用户可以通过@triton.jit创建Triton内核,并利用torch.compile和torch.export进行优化。注册的自定义操作可以在追踪和编译中被识别,而未注册的操作需使用TorchDynamo进行追踪。最终,Triton内核可通过AOTInductor进行预编译,以提升性能。

PyTorch Triton内核的透明追踪与编译

Lei Mao's Log Book
Lei Mao's Log Book · 2026-05-22T07:00:00Z
你的显卡能跑多少算子?用 55 个检查项,给 PyTorch GPU 环境做一次冒烟测试 - 曦远Code

在Windows上使用RX 6650 XT运行自编译的ROCm和PyTorch时,LLM推理加速不明显,GPU利用率低。通过Python脚本检查PyTorch操作,发现54个操作返回CUDA/HIP张量,但性能未必高。常见问题包括MIOpen编译错误和显存不足,建议使用torch.profiler进行性能分析。

你的显卡能跑多少算子?用 55 个检查项,给 PyTorch GPU 环境做一次冒烟测试 - 曦远Code

程序设计实验室
程序设计实验室 · 2026-05-21T02:09:00Z

PyTorch的torch.export API可以生成深度学习模型的标准化表示,适用于无Python环境的部署。随着模型复杂性的增加,开发者需要验证大型模型是否能成功导出为GPU程序。为此,PyTorch提供了使用假张量构建假模型的方法,以验证导出兼容性。通过在FakeTensorMode中创建模型,开发者可以在不同设备上测试模型导出,确保无实际数据分配。

PyTorch假导出

Lei Mao's Log Book
Lei Mao's Log Book · 2026-05-17T07:00:00Z

本文介绍了如何在PyTorch中实现自定义操作,包括使用C++和CUDA编写自定义函数和类。通过示例代码,展示了如何注册和使用这些自定义操作,确保它们在PyTorch模型和AOTInductor编译的推理程序中正常工作,并讨论了模型导出及推理验证。

PyTorch自定义操作

Lei Mao's Log Book
Lei Mao's Log Book · 2026-05-10T07:00:00Z
ROCm on Windows 性能排查:RX 6650 XT 跑 PyTorch,为什么加速不明显? - 曦远Code

作者在Windows上使用RX 6650 XT显卡自编译ROCm和PyTorch进行深度学习。尽管torch.cuda.is_available()返回True,但GPU加速效果不佳,仅为1.7-2.0倍。主要原因包括自回归解码效率低、小模型在内存访问上的瓶颈,以及未启用高性能路径。建议进一步研究以优化性能。

ROCm on Windows 性能排查:RX 6650 XT 跑 PyTorch,为什么加速不明显? - 曦远Code

程序设计实验室
程序设计实验室 · 2026-05-09T05:41:00Z
PyTorch与TensorFlow:2026年选择合适的框架

选择PyTorch或TensorFlow时,关键在于项目需求。PyTorch适合研究和实验,因其动态计算图和直观的Python API,广泛用于自然语言处理和强化学习。TensorFlow在生产部署和企业环境中表现优越,提供成熟的工具和优化支持。选择应基于具体应用场景和团队背景。

PyTorch与TensorFlow:2026年选择合适的框架

The JetBrains Blog
The JetBrains Blog · 2026-05-04T10:07:20Z

最近发布了用Rust编写的轻量级自动微分库ferris-grad。该库具有PyTorch风格的自动求导引擎,核心代码不到1000行,且无外部依赖。实现包括标量计算图、张量操作和神经网络层,支持训练多层感知机和mini GPT。项目灵感来源于Karpathy的micrograd和microgpt,欢迎参与贡献。

1000行Rust实现一个类似pytorch的轻量级自动微分库

Rust.cc
Rust.cc · 2026-04-19T14:10:58Z

本文介绍了机器学习中自动微分的实现方法,通过将复杂函数拆解为基本运算构建计算图,以精确高效地计算导数。文章还展示了反向传播、梯度更新及优化器的实现,并提供了一个类似PyTorch的开源框架。

自動微分 | DIY 實現自己的 PyTorch

Louis Aeilot's Blog
Louis Aeilot's Blog · 2026-04-12T23:45:09Z
PyTorch基金会通过Safetensors、ExecuTorch和Helion扩展AI生态系统

在巴黎的PyTorch大会上,PyTorch基金会宣布了三个新项目:Safetensors、ExecuTorch和Helion,旨在增强开源AI的安全性和效率。Safetensors提供安全的模型分发,ExecuTorch简化边缘设备上的模型运行,Helion则简化机器学习内核的开发。这标志着PyTorch在开源AI领域的进一步发展。

PyTorch基金会通过Safetensors、ExecuTorch和Helion扩展AI生态系统

The New Stack
The New Stack · 2026-04-09T19:18:44Z
CNCF与PyTorch社区齐聚KubeCon + CloudNativeCon中国2026:征集提案现已开放

2026年9月8日至9日,上海将举办KubeCon + CloudNativeCon + OpenInfra Summit Asia + PyTorch Conference China,汇聚云原生、开放基础设施和AI社区。活动欢迎开发者和企业领导分享经验,讨论技术挑战。提案征集已开放,截止日期为2026年5月3日,注册也已开始,提供多种通行证类型。

CNCF与PyTorch社区齐聚KubeCon + CloudNativeCon中国2026:征集提案现已开放

Cloud Native Computing Foundation
Cloud Native Computing Foundation · 2026-04-09T14:19:42Z

在将PyTorch模型转换为图时,控制流可能导致图断裂。使用符号整数(SymInts)可以表示动态形状,允许模型根据输入动态调整。代理张量和直接使用输入张量两种方法各有优缺点,代理张量语法更规范,但可能效率较低。

PyTorch图符号整数

Lei Mao's Log Book
Lei Mao's Log Book · 2026-04-05T07:00:00Z

PyTorch 2引入torch.export功能,允许将模型导出为静态图以优化推理性能。自定义操作可通过无状态的torch.ops或有状态的torch.classes定义。导出时需避免数据依赖形状和控制流,以确保模型可静态表示。导出的模型可在Python中保存和加载,但在C++中需使用AOTInductor或Executorch进行优化和编译,确保模型无图断裂是推理的关键。

PyTorch 导出

Lei Mao's Log Book
Lei Mao's Log Book · 2026-03-31T07:00:00Z
AutoKernel揭秘:PyTorch模型GPU内核全自动加速器

AutoKernel是一个自动化工具,旨在优化PyTorch模型的GPU性能。它通过分析瓶颈、提取内核并自动修改代码,显著提高实验效率,减轻开发者负担。该工具结合了Karpathy的autoresearch理念,实现了持续的性能提升,展示了智能体在科研中的潜力。

AutoKernel揭秘:PyTorch模型GPU内核全自动加速器

极道
极道 · 2026-03-21T23:14:00Z
depyf:为机器学习研究人员打开PyTorch编译器的黑箱

PyTorch 2.x引入了编译器以加速深度学习程序,但研究人员在适应过程中面临挑战。为此,推出了depyf工具,它可以将PyTorch生成的字节码反编译为源代码,帮助用户逐行调试并加深对底层过程的理解。

depyf:为机器学习研究人员打开PyTorch编译器的黑箱

Apple Machine Learning Research
Apple Machine Learning Research · 2026-02-24T00:00:00Z
Mooncake正式加入PyTorch生态系统

Mooncake正式加入PyTorch生态系统,专注于开放治理和与PyTorch社区的长期合作。它提供高效的通信和存储基础设施,支持分散的LLM架构,提升推理性能。Mooncake的功能包括预填充与解码分离、全局KVCache重用、弹性专家并行和容错分布式后端,已被多家知名企业广泛采用。

Mooncake正式加入PyTorch生态系统

Home | KVCache.ai
Home | KVCache.ai · 2026-02-12T00:00:00Z
Windows + AMD 显卡,终于能用 PyTorch 炼丹了 - 曦远Code

作者在 Windows 11 上成功编译了 ROCm 版的 PyTorch,使用了官方 ROCm 软件包和较旧的 PyTorch 2.9.1 版本,避免了许多问题,并安装了相关库以进行深度学习和 AI 画图实验。

Windows + AMD 显卡,终于能用 PyTorch 炼丹了 - 曦远Code

程序设计实验室
程序设计实验室 · 2026-02-06T07:53:00Z
Windows + AMD ROCm + PyTorch:debuff拉满的6650xt A卡炼丹折腾经历 - 曦远Code

本文记录了作者在Windows 11上使用AMD RX 6650 XT显卡、ROCm和PyTorch进行AI绘图的尝试,尽管遇到多次编译错误,作者计划持续更新,直至成功或放弃。

Windows + AMD ROCm + PyTorch:debuff拉满的6650xt A卡炼丹折腾经历 - 曦远Code

程序设计实验室
程序设计实验室 · 2026-02-05T08:47:00Z
摩尔线程开源TorchCodec-MUSA,全功能GPU加速PyTorch多模态训练

摩尔线程开源了TorchCodec-MUSA,实现了PyTorch编解码库的硬件适配,支持无缝迁移至国产GPU,提升视频处理效率,简化开发流程,降低使用门槛,推动国产GPU在AI训练中的应用。

摩尔线程开源TorchCodec-MUSA,全功能GPU加速PyTorch多模态训练

实时互动网
实时互动网 · 2026-01-22T06:12:48Z
PyTorch 2.10 发布,针对 AMD ROCm 和 Intel GPU 进行了更多改进

PyTorch 2.10 发布,增强了对 Intel GPU、AMD ROCm 和 NVIDIA CUDA 的支持,新增功能和性能优化,包括对 Python 3.14 的支持及改进的调试功能。

PyTorch 2.10 发布,针对 AMD ROCm 和 Intel GPU 进行了更多改进

实时互动网
实时互动网 · 2026-01-22T02:12:20Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码