小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
为 CuTe DSL 支持 AOT

CuTe DSL 是一个基于 Python 的高性能 CUDA 算子库,旨在降低学习成本并提高编译速度。它支持 AOT(提前编译)功能,允许用户将算子编译为 C++ 可调用的库。用户可以通过导出二进制文件和使用 CUDA Driver API 方便地加载和调用这些算子。尽管函数签名生成存在挑战,但通过手动指定签名等方法,最终实现了高效的算子调用。

为 CuTe DSL 支持 AOT

Articles on ykiko's blog
Articles on ykiko's blog · 2025-11-11T21:38:08Z
福克斯娱乐收购播客公司 Meet Cute,进一步拓展其音频业务

福克斯娱乐收购了专注短篇故事的播客制作公司Meet Cute,扩展其音频业务。Meet Cute已发布200小时原创内容。创始人Naomi Shah将担任福克斯高级副总裁,推动AI创新和知识产权扩展。福克斯还投资多个音频和视频项目,致力于数字故事讲述的创新。

福克斯娱乐收购播客公司 Meet Cute,进一步拓展其音频业务

实时互动网
实时互动网 · 2025-11-06T03:46:25Z

CuTe张量通过引擎和布局参数化,支持多种迭代器和布局。算术元组张量用于计算元素坐标,生成坐标时不占用额外存储。其布局代数适用于算术元组步幅,确保计算高效。

CuTe 算术元组张量

Lei Mao's Log Book
Lei Mao's Log Book · 2025-10-20T07:00:00Z

CuTe的平铺复制技术用于高效的数据复制,主要在全局内存与共享内存之间进行向量化复制。文章介绍了TiledCopy和ThrCopy模板类,利用线程索引对源和目标张量进行分区,从而实现高效的平铺复制,提升内存带宽利用率,适合处理大规模张量。

CuTe平铺复制

Lei Mao's Log Book
Lei Mao's Log Book · 2025-10-16T07:00:00Z

CuTe线程值布局(TV布局)用于将张量划分为小张量,使线程组中的每个线程按照特定模式访问数据。TV布局将线程与数据坐标映射,便于分块复制和MMA操作。反向TV布局则将数据元素坐标映射到线程索引,以验证数据访问模式。CuTe TV分区通过计算线程坐标简化了数据访问过程。

CuTe线程值布局

Lei Mao's Log Book
Lei Mao's Log Book · 2025-10-13T07:00:00Z

CUDA PTX的ldmatrix指令用于从共享内存加载矩阵到寄存器,支持多种矩阵布局。CuTe封装了该指令,简化了使用过程,用户可通过不同参数灵活加载转置或非转置矩阵,以满足MMA操作需求。

CuTe ldmatrix指令

Lei Mao's Log Book
Lei Mao's Log Book · 2025-10-03T07:00:00Z

Tiler是CuTe布局代数中的关键概念,支持分块数据访问。CuTe逻辑坐标定义数据位置,布局决定存储方式。通过CuTe的组合、补充和逻辑除法,可以灵活创建数据访问模式,从而优化CUDA加速计算中的数据访问效率。

CuTe 分块器

Lei Mao's Log Book
Lei Mao's Log Book · 2025-09-15T07:00:00Z

本文探讨了如何从给定布局推导逆布局。通过定义紧凑布局及其形状和步幅,构造逆布局以满足映射关系。示例中,给定布局L = (8, 16, 4): (64, 1, 16),计算得到逆布局L^{-1} = (16, 4, 8): (8, 128, 1),并进一步简化为L^{-1} = (64, 8): (8, 1)。

CuTe 逆布局

Lei Mao's Log Book
Lei Mao's Log Book · 2025-08-13T07:00:00Z

本文探讨了CuTe中的阻塞乘积和镶嵌乘积,介绍了通过逻辑乘积计算重复布局的方法。1D逻辑乘积较为直观,而2D逻辑乘积则较为复杂。阻塞乘积和镶嵌乘积分别用于生成块状和交错布局,提供了灵活的布局计算方式。

CuTe中的阻塞乘积和镶嵌乘积

Lei Mao's Log Book
Lei Mao's Log Book · 2025-08-07T07:00:00Z

CuTe中的local_tile函数用于在线程块级别将张量划分为小块,并根据线程块坐标进行切片。与local_partition相比,local_tile更易于理解,且无需复杂的数学运算。它通过inner_partition实现,适合将较大问题分解为多个小问题,从而简化坐标计算。

CuTe局部切片

Lei Mao's Log Book
Lei Mao's Log Book · 2025-08-01T07:00:00Z

CuTe的local_partition函数用于根据线程索引对张量进行分区和切片,简化了张量切片过程,确保不同布局下的线程有效访问全局内存,避免复杂坐标计算,从而提升编程效率。

CuTe局部分区

Lei Mao's Log Book
Lei Mao's Log Book · 2025-07-25T07:00:00Z

在CuTe编程中,逆布局函数用于将索引转换为坐标。文章探讨了如何通过布局函数和步幅元组计算坐标元组,强调无需排序即可高效实现。

CuTe 索引到坐标转换

Lei Mao's Log Book
Lei Mao's Log Book · 2025-07-19T07:00:00Z

MMA(矩阵乘法和累加)是GEMM的核心操作。CuTe提供API以配置MMA原子和瓦片,支持更大规模的问题解决。本文讨论了CuTe的瓦片MMA配置、布局及API示例,展示了如何优化性能,通过静态共享内存和线程划分来实现。

CuTe 瓦片 MMA

Lei Mao's Log Book
Lei Mao's Log Book · 2025-01-09T08:00:00Z

本文介绍了CuTe库中共享内存混洗类Swizzle的实现,简化了共享内存混洗操作。通过设置参数BBits、MBase和SShift,避免了共享内存银行冲突,确保向量化内存访问的连续性。示例展示了如何利用位操作实现混洗,以提高CUDA中共享内存的访问效率。

CuTe共享内存混洗

Lei Mao's Log Book
Lei Mao's Log Book · 2024-12-01T08:00:00Z

CuTe是一个C++模板库,提供CUDA内核中的高级布局和张量操作。本文介绍了如何使用CuTe实现矩阵转置的CUDA内核,探讨了共享内存的使用及优化方法,包括避免共享内存银行冲突的技巧,并通过性能对比展示了CuTe在CUDA编程中的优势。

CuTe 矩阵转置

Lei Mao's Log Book
Lei Mao's Log Book · 2024-11-20T08:00:00Z

本文讨论了CuTe布局代数中形状元组的左可分性问题。通过修改定义,确保形状模式的左可分性,从而增强组合的可接受性假设。文章还在特定条件下证明了组合的可接受性,并探讨了相关的数学推导和符号使用。

关于CuTe布局代数的说明的说明的说明

学习让我快乐
学习让我快乐 · 2024-10-20T16:00:00Z

本文研究了CuTe布局代数中的组合问题,强调左可除性的重要性。通过定义逻辑除法和有序分解,分析布局函数的实现,并使用范畴理论描述其组合性质。数学证明验证了布局函数在不同条件下的正确性,确保组合的有效性和一致性。

CuTe 布局代数

Lei Mao's Log Book
Lei Mao's Log Book · 2024-10-20T07:00:00Z
A note on A note on the algebra of CuTe Layouts

本文记录了对《CuTe布局代数》的学习笔记,重点讨论了1-D到R-D坐标空间的转换公式,布局函数的单调性及映射性质,以及不同布局函数的组合及其性质,涉及相关的数学基础和代数定理。

A note on A note on the algebra of CuTe Layouts

学习让我快乐
学习让我快乐 · 2024-10-18T16:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码