小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
视频生成推理加速实践:基于 torch.compile 的整图编译优化

视频生成模型的推理优化应从算子级转向计算图级,以提升整体执行效率。Self-Forcing模型采用逐块生成策略,降低计算复杂度。通过torch.compile实现整图编译,消除Graph Break,最终实现约47.6%的加速效果。

视频生成推理加速实践:基于 torch.compile 的整图编译优化

实时互动网
实时互动网 · 2026-01-28T07:51:08Z
OpenAI亿元收购4人团队 AI创业正进入「一人独角兽」时代

OpenAI以约1亿美元收购了仅有4名员工的AI医疗公司Torch,旨在整合医疗数据,提升ChatGPT Health功能。这一收购反映了AI技术的发展和独立创始人推动的“一人独角兽”时代的到来。

OpenAI亿元收购4人团队 AI创业正进入「一人独角兽」时代

爱范儿
爱范儿 · 2026-01-15T07:25:52Z
早报|苹果推出创作「全家桶」,最低6元每月/Meta元宇宙部门计划裁员数百人/微信员工回应通知头像讨论:安卓一直都有、iOS正在灰测

苹果推出了订阅服务Apple Creator Studio,整合多款创意工具,价格低于剪映一半。预计到2025年,App Store周活跃用户将超过8.5亿,服务业务创下新纪录。微信澄清通知头像功能,安卓版本已上线。OpenAI收购AI医疗应用Torch,估值约1亿。

早报|苹果推出创作「全家桶」,最低6元每月/Meta元宇宙部门计划裁员数百人/微信员工回应通知头像讨论:安卓一直都有、iOS正在灰测

爱范儿
爱范儿 · 2026-01-14T00:22:50Z

本文介绍了如何使用Torch FX对PyTorch模块进行图形检查和可视化,特别是多层感知器(MLP)。通过符号追踪和导出生成图形,并使用FxGraphDrawer进行可视化。同时展示了记录函数调用和调度的方法,以帮助理解模块的结构和操作。

检查和可视化Torch FX图

Lei Mao's Log Book
Lei Mao's Log Book · 2025-12-31T08:00:00Z
使用torch.compile和梯度累积加速模型训练

本文介绍了加速深度变换器语言模型训练的两种技术:使用torch.compile()优化模型性能,以及通过梯度累积实现更大的有效批量大小。torch.compile()提升执行速度,梯度累积通过多次前向传播减少反向传播次数,从而节省时间。

使用torch.compile和梯度累积加速模型训练

MachineLearningMastery.com
MachineLearningMastery.com · 2025-12-25T16:44:48Z
摩尔线程发布Torch-MUSA v2.7.0,持续增强AI模型训练与推理支持

摩尔线程发布了Torch-MUSA v2.7.0,增强了PyTorch深度学习框架的功能和性能,支持统一内存设备,算子超过1050个。新版本集成muSolver和muFFT,加速复杂计算,新增动态双精度转换和分布式检查点功能,优化内存使用和计算效率,未来将持续跟进PyTorch更新。

摩尔线程发布Torch-MUSA v2.7.0,持续增强AI模型训练与推理支持

实时互动网
实时互动网 · 2025-11-28T03:28:55Z
强化 FSDP2 分布式训练支持,摩尔线程发布 Torch-MUSA v2.1.1

摩尔线程发布了Torch-MUSA v2.1.1,增强了对大规模深度学习模型的支持,优化了编译性能和内存管理,新增分布式训练和3D支持,简化了集成流程,提升了用户体验。

强化 FSDP2 分布式训练支持,摩尔线程发布 Torch-MUSA v2.1.1

实时互动网
实时互动网 · 2025-09-10T07:15:29Z
torch.compile 介绍及其与 vLLM 的工作原理

torch.compile 是 PyTorch 的即时编译器,旨在自动优化代码以提升大语言模型(LLM)的推理性能。它通过捕获张量操作生成优化内核,简化开发者的工作。vLLM 集成了 torch.compile,支持动态批量大小和自定义编译器传递,进一步提升性能。未来将改善稳定性和启动时间,推动推理性能的提升。

torch.compile 介绍及其与 vLLM 的工作原理

vLLM Blog
vLLM Blog · 2025-08-20T00:00:00Z
【小记】在 Docker 中多卡并行训练深度学习模型

在深度学习中,训练方式包括模型并行和数据并行。使用torch进行数据并行时,可以选择torch.nn.DataParallel或torch.nn.DistributedDataParallel。本文主要介绍如何在Docker中使用torch.nn.DataParallel进行单机多卡训练,包括环境准备和代码调整。

【小记】在 Docker 中多卡并行训练深度学习模型

Anjhon’s Blog
Anjhon’s Blog · 2025-04-17T16:00:00Z
torch.compile 与 torch.export

torch.compile()和torch.export()是基于PyTorch 2.6的工具。前者为JIT编译器,灵活处理不可追踪部分;后者为AOT编译器,捕获完整图形,适合部署。两者在图形捕获、处理不可追踪代码和输出方面存在差异。

torch.compile 与 torch.export

DEV Community
DEV Community · 2025-03-05T12:17:31Z
torch.export

torch.export()用于提前编译Python可调用对象,生成功能图。它利用TorchDynamo进行字节码追踪,AOT Autograd功能化图形,并通过torch.fx.graph提供图形表示。ExportedProgram包含GraphModule和图签名,支持动态形状和序列化。使用export_for_training()可处理非功能操作,但存在无法追踪的代码和缺失的假内核等限制。

torch.export

DEV Community
DEV Community · 2025-03-05T12:06:02Z
torch.compile()

torch.compile是PyTorch 2.0后用于加速代码的技术,通过JIT编译优化为NVIDIA内核。首次运行可能较慢,但后续会加快。它由Torch Dynamo和Torch Inductor组成,减少Python开销并优化CPU-GPU通信。

torch.compile()

DEV Community
DEV Community · 2025-02-25T13:19:07Z
使用Torch Inductor进行推理的经验教训

本文介绍了Torch Inductor编译模型的基本知识和最佳实践。Torch Inductor通过即时编译优化PyTorch模型,支持动态形状和多后端选择,但存在无法保存优化模型和推理启动慢的缺点。AOTInductor可提前编译,显著降低延迟。建议使用torch.Tensor类型作为输入,简化前向传递逻辑,以提高编译效率。

使用Torch Inductor进行推理的经验教训

DEV Community
DEV Community · 2024-11-16T03:45:53Z
全面兼容PyTorch 2.2.0,摩尔线程发布Torch-MUSA v1.3.0版本

摩尔线程发布了Torch-MUSA v1.3.0,全面兼容PyTorch 2.2.0,提升模型性能并支持国产GPU,用户可轻松迁移模型。Torch-MUSA开源,鼓励开发者参与改进,未来将持续跟进PyTorch更新。

全面兼容PyTorch 2.2.0,摩尔线程发布Torch-MUSA v1.3.0版本

实时互动网
实时互动网 · 2024-10-31T10:29:47Z

`torch.normal()`函数用于生成正态分布的随机数。`mean`和`std`可以是标量或张量,决定生成张量的均值和标准差。`size`参数指定张量的尺寸,`generator`用于随机数生成器,`out`指定输出张量。返回的张量元素符合指定的正态分布。

Pytorch库中torch.normal()详解

程序新视界
程序新视界 · 2024-10-03T13:04:20Z

最近在部署一个向量模型时,遇到了torch报错的问题。经过排查发现是缺少了一个dll文件,通过下载并放置在相应目录下解决了问题。然后重新启动程序,成功运行。

Torch找不到指定的模块torch\lib\fbgemm.dll

晓空blog
晓空blog · 2024-08-30T12:29:55Z

RIM正式终止了BlackBerry Classic智能手机的服务,并建议用户转向更新的Android机型。RIM保证这些手机仍然提供出色的安全性和可靠的数据网络。BlackBerry 10的失败导致品牌的衰落,促使RIM转向Android并专注于企业网络安全。RIM收购了Torch Mobile以增强BlackBerry OS浏览器体验。Torch 9800是第一款配备触摸屏和QWERTY键盘的BlackBerry手机,但无法与iPhone和Android手机竞争。

Torch 和 PlayBook:黑莓追赶多点触控的两次尴尬尝试

少数派
少数派 · 2024-08-26T09:50:52Z

TensorFlow Quantum 是一个开源库,支持混合量子-经典模型的设计与训练,推动量子计算与机器学习的发展。该库提供超导量子分类和噪声模拟等功能,帮助发现潜在的量子算法。其他工具如 NetKet 3 和 TorchMD-Net 也在量子态机器学习和计算效率方面有所贡献。QPyTorch 框架简化了低精度训练的研究,提升了模型效率。

Qiskit-Torch-Module:快速原型制作量子神经网络

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-04-09T00:00:00Z

神经辐射场(NeRF)是一种利用多层感知器(MLP)表示3D场景的框架,能够生成高质量的视角合成图像。近年来,NeRF在计算机视觉领域取得显著进展,提出了多种改进方法,如NeRF-W和pixelNeRF,以解决自然图像中的问题并提高渲染质量。本文分析了NeRF的核心架构及其应用,探讨了未来发展趋势和挑战。

利用 Torch 单元的神经辐射场

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-04-03T00:00:00Z

系列教程列表: Libtorch系列教程1:一个丝滑的C++ Tensor库 Libtorch系列教程2:torch::Tensor的使用...

libtorch系列教程2:torch::Tensor的使用

Yunfeng's Simple Blog
Yunfeng's Simple Blog · 2023-02-25T09:15:46Z
  • <<
  • <
  • 1 (current)
  • 2
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码