小红花·文摘

蚂蚁集团、阿里云等正式加入PyTorch基金会，携手全球开源力量推动AI普惠

量子位 ·

谷歌发布 TabFM-1.0.0-PyTorch：专为混合表格数据打造的零样本预测模型；跨越亚美欧！NVIDIA 开源多国合成人物数据集，千万级角色数据上线

HyperAI超神经 ·

PyTorch性能优化必知：内核与显存读写到底咋回事

极道 ·

KubeCon + CloudNativeCon、OpenInfra Summit和PyTorch大会在中国联合，共同推动AI的规模化

Cloud Native Computing Foundation ·

本文讨论了PyTorch AOTInductor如何将具有混合设备执行计划的PyTorch导出程序编译成单个可执行包，该包可在CPU和GPU上运行模型，无需手动拆分模型。示例展示了如何使用AOTInductor编译和加载模型，并通过性能分析验证混合执行的有效性。

PyTorch AOTInductor 混合降级

Lei Mao's Log Book ·

本文讨论了如何在PyTorch中使用Triton内核进行透明追踪和编译。用户可以通过@triton.jit创建Triton内核，并利用torch.compile和torch.export进行优化。注册的自定义操作可以在追踪和编译中被识别，而未注册的操作需使用TorchDynamo进行追踪。最终，Triton内核可通过AOTInductor进行预编译，以提升性能。

PyTorch Triton内核的透明追踪与编译

Lei Mao's Log Book ·

你的显卡能跑多少算子？用 55 个检查项，给 PyTorch GPU 环境做一次冒烟测试 - 曦远Code

程序设计实验室 ·

PyTorch的torch.export API可以生成深度学习模型的标准化表示，适用于无Python环境的部署。随着模型复杂性的增加，开发者需要验证大型模型是否能成功导出为GPU程序。为此，PyTorch提供了使用假张量构建假模型的方法，以验证导出兼容性。通过在FakeTensorMode中创建模型，开发者可以在不同设备上测试模型导出，确保无实际数据分配。

PyTorch假导出

Lei Mao's Log Book ·

本文介绍了如何在PyTorch中实现自定义操作，包括使用C++和CUDA编写自定义函数和类。通过示例代码，展示了如何注册和使用这些自定义操作，确保它们在PyTorch模型和AOTInductor编译的推理程序中正常工作，并讨论了模型导出及推理验证。

PyTorch自定义操作

Lei Mao's Log Book ·

ROCm on Windows 性能排查：RX 6650 XT 跑 PyTorch，为什么加速不明显？ - 曦远Code

程序设计实验室 ·

PyTorch与TensorFlow：2026年选择合适的框架

The JetBrains Blog ·

最近发布了用Rust编写的轻量级自动微分库ferris-grad。该库具有PyTorch风格的自动求导引擎，核心代码不到1000行，且无外部依赖。实现包括标量计算图、张量操作和神经网络层，支持训练多层感知机和mini GPT。项目灵感来源于Karpathy的micrograd和microgpt，欢迎参与贡献。

1000行Rust实现一个类似pytorch的轻量级自动微分库

Rust.cc ·

本文介绍了机器学习中自动微分的实现方法，通过将复杂函数拆解为基本运算构建计算图，以精确高效地计算导数。文章还展示了反向传播、梯度更新及优化器的实现，并提供了一个类似PyTorch的开源框架。

自動微分 | DIY 實現自己的 PyTorch

Louis Aeilot's Blog ·

PyTorch基金会通过Safetensors、ExecuTorch和Helion扩展AI生态系统

The New Stack ·

CNCF与PyTorch社区齐聚KubeCon + CloudNativeCon中国2026：征集提案现已开放

Cloud Native Computing Foundation ·

在将PyTorch模型转换为图时，控制流可能导致图断裂。使用符号整数（SymInts）可以表示动态形状，允许模型根据输入动态调整。代理张量和直接使用输入张量两种方法各有优缺点，代理张量语法更规范，但可能效率较低。

PyTorch图符号整数

Lei Mao's Log Book ·

PyTorch 2引入torch.export功能，允许将模型导出为静态图以优化推理性能。自定义操作可通过无状态的torch.ops或有状态的torch.classes定义。导出时需避免数据依赖形状和控制流，以确保模型可静态表示。导出的模型可在Python中保存和加载，但在C++中需使用AOTInductor或Executorch进行优化和编译，确保模型无图断裂是推理的关键。

PyTorch 导出

Lei Mao's Log Book ·

AutoKernel揭秘：PyTorch模型GPU内核全自动加速器

极道 ·

depyf：为机器学习研究人员打开PyTorch编译器的黑箱

Apple Machine Learning Research ·

Mooncake正式加入PyTorch生态系统

Home | KVCache.ai ·