小红花·文摘

本文介绍了CuTe库中共享内存混洗类Swizzle的实现，简化了共享内存混洗操作。通过设置参数BBits、MBase和SShift，避免了共享内存银行冲突，确保向量化内存访问的连续性。示例展示了如何利用位操作实现混洗，以提高CUDA中共享内存的访问效率。

CuTe共享内存混洗

Lei Mao's Log Book ·

在本研究中，我们引入了一类新的结构化矩阵，统一并推广了之前工作中的结构化类，以进一步改进参数和计算效率。我们还将这种参数化方法用于修改正交微调框架，在不同领域进行了实证验证，包括文本与图像扩散模型的自适应和语言建模中的下游任务微调。此外，我们还将我们的结构化构造用于正交卷积，并进行了 1-Lipschitz 神经网络的实验。

分组与混洗：高效结构正交参数化

BriefGPT - AI 论文速递 ·

ShuffleNet是一种适用于移动设备的卷积神经网络，利用逐点组卷积和通道混洗等新操作降低计算成本，保持准确性。实验表明，ShuffleNet在40 MFLOPs的计算预算下性能优于其他结构，Top-1错误率低于MobileNet。在基于ARM的移动设备上，ShuffleNet实现了约13倍的实际加速。

动态混洗：一种高效的信道混合方法

BriefGPT - AI 论文速递 ·