小红花·文摘

本研究提出了XAttention框架，旨在解决长上下文变换器模型的计算成本问题。通过稀疏注意力加速推理，利用反对角值之和作为块重要性代理，实现高效的块识别与剪枝，最终实现高达13.5倍的计算加速。

XAttention: Block Sparse Attention with Antidiagonal Scoring

BriefGPT - AI 论文速递 ·

本研究通过改进的同态加密变换器架构，解决了大型语言模型个性化响应中的隐私问题。该方法在个性化微调后加速计算，同时保持性能，为隐私保护的语言模型服务提供了可能性。

加密友好的大型语言模型架构

BriefGPT - AI 论文速递 ·

本文提出了一种新颖的脉冲自注意（SSA）和脉冲变换器（Spikformer），通过自监督学习训练，实验证明其在ImageNet上的分类准确性超过80%。Spikformer结合了脉冲神经网络的生物特性和自注意力机制，展示了在多个数据集上的优越性能。新架构通过引入线性变换加速计算，提高了训练和推断速度，并减少了内存使用。

QKFormer: 使用 Q-K Attention 的层次化脉冲变压器

BriefGPT - AI 论文速递 ·

FPGA是一种通过路由网络连接的查找表2D网格，可模拟任意电路。微软成功利用FPGA加速搜索和深度神经网络。FPGA编程需要重新思考整个堆栈，需要新的硬件类型。新的软件栈应摒弃FPGA的遗留问题和RTL抽象。

FPGA难懂？与GPU类比一下就明白了

良许Linux教程网 ·