机器之心 ·

又快又准，即插即用！清华8比特量化Attention，两倍加速于FlashAttention2，各端到端任务均不掉点！

💡 原文中文，约2900字，阅读约需7分钟。

📝

内容提要

清华大学陈键飞团队推出SageAttention，一种8位注意力机制，大幅提升大模型推理效率，实现2到2.7倍加速且无精度损失。通过平滑处理矩阵K和分块量化Q、K，解决量化精度问题。实验显示其在视频、图像、文本生成任务中表现优异，且易于集成。

🎯

❓

SageAttention实现了2到2.7倍的推理加速，且无精度损失。

通过平滑处理矩阵K和分块量化Q、K，SageAttention有效解决了量化精度问题。

SageAttention可以通过一行代码替换当前最优的Attention接口，实现即插即用。

实验显示SageAttention在视频、图像、文本生成任务中表现优异。

SageAttention在算子速度和模型端到端精度上表现优异，尤其在RTX4090上。

SageAttention在推理速度上比FlashAttention2快2.1到2.7倍。

🏷️

Visual Studio Code 1.123
Visual Studio Code 1.123版本更新了多个功能，包括在Agents窗口中继续聊天、集成浏览器区域截图和支持仅发送附件的请求。修复了Py...
亚马逊的搜索栏将生成无法购买的AI生成产品
亚马逊更新了搜索栏，用户可以根据描述查看AI生成的服装和家居商品图片，帮助用户在记不清具体名称时找到所需商品。该功能将于安卓和iOS应用上线。
游记-千岛湖
千岛湖是杭州附近的美丽旅游胜地，以清澈的湖水和众多小岛著称。游客可以享受自然风光，进行水上活动，体验宁静的环境。
介绍Gemma 4 12B：一个统一的无编码多模态模型
Gemma 4 12B是最新的多模态智能模型，专为笔记本电脑设计，具备强大的推理能力和音频输入。它采用无编码架构，减少延迟和内存使用，支持在16GB内存的...
认识Dreambeans，一个与您重要事物相连接的应用
谷歌实验室推出了Dreambeans，这是一个利用AI技术生成个性化故事的工具。它通过连接用户的Gmail和日历等应用，提供灵感和建议，帮助用户聚焦重要事...
YouTube获得行业首个短视频MRC认证
YouTube连续第六年获得媒体评级委员会（MRC）的品牌安全认证，并首次将认证扩展至YouTube Shorts，成为首个获得短视频品牌安全认证的平台。...