小红花·文摘

本文探讨了NVIDIA的CUDA生态系统，包括编译链、高层工具、分层结构、数学库（如cuBLAS和cuDNN）、通信库（如NCCL）及Triton DSL。文章比较了AMD ROCm和华为CANN的定位，分析了CUDA在大模型训练中的重要性和优势，并强调了性能调优工具Nsight的使用，以及FP8训练的潜在问题和解决方案。

【大模型基础设施工程】03：CUDA 生态——cuBLAS、cuDNN、NCCL、Triton、CUTLASS

土法炼钢兴趣小组的博客 ·

Triton是一种基于Python的并行编程语言和编译器，旨在高效编写自定义深度神经网络计算内核，并在现代GPU上运行。它提供了多种处理张量的函数，如argmax、argmin、max、min、reduce和sum。

【Triton 教程】triton-ops

HyperAI超神经 ·

加载模型时出现错误，提示'importlib_metadata'模块缺少'EntryPoints'属性，导致无法执行。

【Triton 教程】math-ops

HyperAI超神经 ·

本报告探讨OpenClaw体系下Agent的强化学习训练方法，重点分析RFT与GRPO的训练流程，旨在降低强化学习训练门槛，实现训练自动化，并提升Agent的任务性能。

【Triton 教程】triton_language.erf

HyperAI超神经 ·

本次作业通过基准测试和性能分析不同规模的模型，研究规模对性能的影响，并建议使用代码自动生成表格以简化报告格式化。

【Triton 教程】triton_language.div_rn

HyperAI超神经 ·

命令执行失败，状态码为127，可能是由于缺少依赖或配置错误造成的。

【Triton 教程】triton_language.cos

HyperAI超神经 ·

vLLM Triton 注意力后端深度解析

vLLM Blog ·

本文解读了IEEE生物医学与健康信息学期刊中关于运动想象EEG解码的研究MSVTNet，该方法结合多尺度卷积与Vision Transformer，构建CNN-Transformer混合模型，以提升训练稳定性。文章梳理了模型背景、核心结构及实验结果，并讨论了其优势与改进方向。

【Triton 教程】triton_language.clamp

HyperAI超神经 ·

遇到Mamba环境安装问题时，可以下载离线whl文件并用pip安装，确保用官方项目的mamba_ssm替换conda环境中的版本。环境安装和模块实例化已完成，近期将分享Mamba理论。

【Triton 教程】triton_language.ceil

HyperAI超神经 ·

本报告探讨OpenClaw体系中Agent的强化学习训练方法，重点分析RFT与GRPO的训练流程，旨在降低强化学习训练的门槛，实现自然语言驱动的训练自动化。

【Triton 教程】triton_language.cdiv

HyperAI超神经 ·

在3060显卡下，fp16推理的linear层在特定数据维度下提速约60%；layernorm在数据维度超过特定值时提速约40%；rmsnorm在triton版本下可实现30%以上的提速。提升效果与硬件和软件版本密切相关。

【Triton 教程】triton_language.abs

HyperAI超神经 ·

Triton 是一种基于 Python 的并行编程语言和编译器，旨在高效编写自定义深度神经网络计算内核，以实现现代 GPU 的最大吞吐量。

【Triton 教程】triton_language.swizzle2d

HyperAI超神经 ·

当M与BLOCK_SIZE_M不匹配时，可通过添加无用值进行处理。执行顺序会影响L2缓存命中率，导致矩阵增量执行性能下降。按行向量序需加载90个元素，而固定单元格分组只需54个，需使用多维指针运算。

【Triton 教程】triton_language.where

HyperAI超神经 ·

我的代码风格经历了从硬编码到封装，再到观察者模式的三次演变。在 Skynet 的分布式环境中，观察者模式通过注册规则实现服务解耦，简化了任务处理。

【Triton 教程】triton_language.flip

HyperAI超神经 ·

飞桨提供Triton算子接入方案，降低适配成本

百度大脑 ·

当M与BLOCK_SIZE_M不匹配时，可通过添加无用值进行处理。执行顺序会影响L2缓存命中率，导致矩阵增量式执行性能下降。按行向量序排列需加载90个元素，而固定单元格分组只需54个，需使用多维指针运算。

【Triton 教程】triton.language.advance

HyperAI超神经 ·

工业传感器信号是一维时间序列数据，具有周期性或突发性模式。1D-CNN能够自动提取关键特征，并结合频域分析来提升异常检测效果。建议采用级联策略，先进行快速阈值过滤，以增强模型的解释性。输入数据为时域信号与频域幅值谱的拼接，形成多通道输入。

【Triton 教程】triton_language.make_block_ptr

HyperAI超神经 ·

Triton是一种基于Python的并行编程语言和编译器，旨在高效编写自定义DNN计算内核，并在现代GPU上运行。它支持多种指针类型和边界检查选项，能够存储数据张量。

【Triton 教程】triton_language.store

HyperAI超神经 ·

Triton是一种基于Python的并行编程语言和编译器，旨在高效编写自定义DNN计算内核，并在现代GPU上实现最大吞吐量。它支持加载数据张量以及多种指针类型和参数选项。

【Triton 教程】triton_language.load

HyperAI超神经 ·

Triton是一种基于Python的并行编程语言和编译器，旨在高效编写自定义DNN计算内核，以实现现代GPU的最大吞吐量。它支持二维和三维张量的矩阵乘积运算，并提供多种参数选项以优化计算精度和性能。

【Triton 教程】triton_language.dot

HyperAI超神经 ·