小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

本文探讨了NVIDIA的CUDA生态系统,包括编译链、高层工具、分层结构、数学库(如cuBLAS和cuDNN)、通信库(如NCCL)及Triton DSL。文章比较了AMD ROCm和华为CANN的定位,分析了CUDA在大模型训练中的重要性和优势,并强调了性能调优工具Nsight的使用,以及FP8训练的潜在问题和解决方案。

【大模型基础设施工程】03:CUDA 生态——cuBLAS、cuDNN、NCCL、Triton、CUTLASS

土法炼钢兴趣小组的博客
土法炼钢兴趣小组的博客 · 2026-04-22T00:00:00Z

Triton是一种基于Python的并行编程语言和编译器,旨在高效编写自定义深度神经网络计算内核,并在现代GPU上运行。它提供了多种处理张量的函数,如argmax、argmin、max、min、reduce和sum。

【Triton 教程】triton-ops

HyperAI超神经
HyperAI超神经 · 2026-04-07T02:49:03Z

加载模型时出现错误,提示'importlib_metadata'模块缺少'EntryPoints'属性,导致无法执行。

【Triton 教程】math-ops

HyperAI超神经
HyperAI超神经 · 2026-04-01T10:37:20Z

本报告探讨OpenClaw体系下Agent的强化学习训练方法,重点分析RFT与GRPO的训练流程,旨在降低强化学习训练门槛,实现训练自动化,并提升Agent的任务性能。

【Triton 教程】triton_language.erf

HyperAI超神经
HyperAI超神经 · 2026-03-24T06:36:07Z

本次作业通过基准测试和性能分析不同规模的模型,研究规模对性能的影响,并建议使用代码自动生成表格以简化报告格式化。

【Triton 教程】triton_language.div_rn

HyperAI超神经
HyperAI超神经 · 2026-03-18T08:58:29Z

命令执行失败,状态码为127,可能是由于缺少依赖或配置错误造成的。

【Triton 教程】triton_language.cos

HyperAI超神经
HyperAI超神经 · 2026-03-09T01:56:08Z
vLLM Triton 注意力后端深度解析

本文介绍了IBM研究、红帽和AMD团队开发的vLLM Triton注意力后端,旨在实现跨GPU平台的高性能。Triton是一种特定领域语言,支持用Python编写高效的GPU内核,兼容多种模型和硬件。通过优化内核设计和微基准测试,Triton后端在AMD、NVIDIA和Intel平台上表现优异,成为默认的注意力后端。

vLLM Triton 注意力后端深度解析

vLLM Blog
vLLM Blog · 2026-03-04T00:00:00Z

本文解读了IEEE生物医学与健康信息学期刊中关于运动想象EEG解码的研究MSVTNet,该方法结合多尺度卷积与Vision Transformer,构建CNN-Transformer混合模型,以提升训练稳定性。文章梳理了模型背景、核心结构及实验结果,并讨论了其优势与改进方向。

【Triton 教程】triton_language.clamp

HyperAI超神经
HyperAI超神经 · 2026-03-02T05:28:42Z

遇到Mamba环境安装问题时,可以下载离线whl文件并用pip安装,确保用官方项目的mamba_ssm替换conda环境中的版本。环境安装和模块实例化已完成,近期将分享Mamba理论。

【Triton 教程】triton_language.ceil

HyperAI超神经
HyperAI超神经 · 2026-02-25T07:46:05Z

本报告探讨OpenClaw体系中Agent的强化学习训练方法,重点分析RFT与GRPO的训练流程,旨在降低强化学习训练的门槛,实现自然语言驱动的训练自动化。

【Triton 教程】triton_language.cdiv

HyperAI超神经
HyperAI超神经 · 2026-02-09T03:14:16Z

在3060显卡下,fp16推理的linear层在特定数据维度下提速约60%;layernorm在数据维度超过特定值时提速约40%;rmsnorm在triton版本下可实现30%以上的提速。提升效果与硬件和软件版本密切相关。

【Triton 教程】triton_language.abs

HyperAI超神经
HyperAI超神经 · 2026-02-02T03:48:44Z

Triton 是一种基于 Python 的并行编程语言和编译器,旨在高效编写自定义深度神经网络计算内核,以实现现代 GPU 的最大吞吐量。

【Triton 教程】triton_language.swizzle2d

HyperAI超神经
HyperAI超神经 · 2026-01-26T09:54:20Z

当M与BLOCK_SIZE_M不匹配时,可通过添加无用值进行处理。执行顺序会影响L2缓存命中率,导致矩阵增量执行性能下降。按行向量序需加载90个元素,而固定单元格分组只需54个,需使用多维指针运算。

【Triton 教程】triton_language.where

HyperAI超神经
HyperAI超神经 · 2026-01-20T03:46:59Z

我的代码风格经历了从硬编码到封装,再到观察者模式的三次演变。在 Skynet 的分布式环境中,观察者模式通过注册规则实现服务解耦,简化了任务处理。

【Triton 教程】triton_language.flip

HyperAI超神经
HyperAI超神经 · 2026-01-14T02:38:35Z
飞桨提供Triton算子接入方案,降低适配成本

随着AI模型规模的增长,算子性能优化变得至关重要。飞桨推出了Triton算子接入方案,简化了开发者使用Triton编写GPU内核的过程,实现了“零改动复用”。开发者可以无缝调用Triton算子,从而提升性能与兼容性,推动开放的算子生态,降低协作成本。

飞桨提供Triton算子接入方案,降低适配成本

百度大脑
百度大脑 · 2026-01-09T13:25:57Z

当M与BLOCK_SIZE_M不匹配时,可通过添加无用值进行处理。执行顺序会影响L2缓存命中率,导致矩阵增量式执行性能下降。按行向量序排列需加载90个元素,而固定单元格分组只需54个,需使用多维指针运算。

【Triton 教程】triton.language.advance

HyperAI超神经
HyperAI超神经 · 2026-01-06T04:32:23Z

工业传感器信号是一维时间序列数据,具有周期性或突发性模式。1D-CNN能够自动提取关键特征,并结合频域分析来提升异常检测效果。建议采用级联策略,先进行快速阈值过滤,以增强模型的解释性。输入数据为时域信号与频域幅值谱的拼接,形成多通道输入。

【Triton 教程】triton_language.make_block_ptr

HyperAI超神经
HyperAI超神经 · 2025-12-30T08:22:59Z

Triton是一种基于Python的并行编程语言和编译器,旨在高效编写自定义DNN计算内核,并在现代GPU上运行。它支持多种指针类型和边界检查选项,能够存储数据张量。

【Triton 教程】triton_language.store

HyperAI超神经
HyperAI超神经 · 2025-12-26T10:43:52Z

Triton是一种基于Python的并行编程语言和编译器,旨在高效编写自定义DNN计算内核,并在现代GPU上实现最大吞吐量。它支持加载数据张量以及多种指针类型和参数选项。

【Triton 教程】triton_language.load

HyperAI超神经
HyperAI超神经 · 2025-12-17T09:17:52Z

Triton是一种基于Python的并行编程语言和编译器,旨在高效编写自定义DNN计算内核,以实现现代GPU的最大吞吐量。它支持二维和三维张量的矩阵乘积运算,并提供多种参数选项以优化计算精度和性能。

【Triton 教程】triton_language.dot

HyperAI超神经
HyperAI超神经 · 2025-12-17T09:06:49Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码