小红花·文摘 - 小红花技术领袖俱乐部

$Fast-WAM——训练时保留视频联合训练(虽同时生成但动作token不看视频token)，在推理时则移除显式的未来视频生成，直接在单次前向中，依托得到的潜在世界表征KV Cache预测动作$

Fast-WAM——训练时保留视频联合训练(虽同时生成但动作token不看视频token)，在推理时则移除显式的未来视频生成，直接在单次前向中，依托得到的潜在世界表征KV Cache预测动作

结构之法算法之道 ·

刚刚，DeepSeek公布推理时Scaling新论文，R2要来了？

刚刚，DeepSeek公布推理时Scaling新论文，R2要来了？

机器之心 ·

本研究利用Intel CPU的高级矩阵扩展（AMX）和非结构稀疏性，解决了大语言模型在推理阶段的内存限制和解码速度慢的问题，实现了1.42倍的延迟减少，并提供了开源稀疏内核方案，提升了大语言模型在常规计算平台上的可访问性。

SparAMX: Accelerating Token Generation of Compressed Large Language Models on AMX-Supported CPUs

BriefGPT - AI 论文速递 ·

本论文提出了一种高效的Transformer架构，通过渐进重参数化批归一化和简化线性注意力的方法，在推理阶段提高效率。该方法在多个基准测试中展示了强大的性能，特别适用于图像分类和物体检测任务。

SLAB：华为开源，通过线性注意力和PRepBN提升Transformer效率 | ICML 2024 - 晓飞的算法工程笔记

晓飞的算法工程笔记 ·