BriefGPT - AI 论文速递 ·

朝向经济高效的推理：使DeepSeek的多头潜在注意力在任何基于Transformer的LLM中都可行

💡 原文英文，约100词，阅读约需1分钟。

📝

内容提要

本文提出了一种名为MHA2MLA的方法，旨在解决深度学习模型中多头注意力的高成本问题。该方法通过使用0.3%到0.6%的数据，显著降低推理成本并恢复性能，同时压缩KV缓存。

🎯

🏷️

一分钟读论文：《诊断LLM裁判的可靠性：共形预测集与传递性违规》
普林斯顿大学的论文《Diagnosing LLM Judge Reliability: Conformal Prediction Sets and Tra...
Unweight：如何在不牺牲质量的情况下将大型语言模型压缩22%
Unweight是一种无损压缩系统，能够将大型语言模型（LLM）的权重缩小15-22%，而不影响输出质量。该系统通过在快速的片上内存中解压权重，避免了主内...
马斯克来抖音卖老干妈了？？
OpenAI最新的图像生成模型GPT Image 2已达到以假乱真的水平，生成的图片和文字几乎无法辨别真假。这一技术进步可能会对设计行业产生重大影响，降低...
Google’s Aletheia Advances the State of the Art of Fully Autonomous Agentic Math Research
Google announced Aletheia, an AI using Gemini 3 Deep Think that solved 6/10 n...
教龙虾玩手机！打通GUI智能体训练-评测-部署全流程，训练、真机、评测一站解决
ClawGUI是一个开源框架，旨在解决GUI智能体的训练、评测和部署问题。它通过在线强化学习与真实设备交互，提升模型性能。ClawGUI-2B在Mobil...
黄仁勋都被问毛了：顶级AI厂商在去CUDA？“你的前提就是错的”
黄仁勋在访谈中谈到英伟达的成功与未来，强调其强大的合作伙伴生态系统和对稀缺组件的提前采购承诺。他认为AI工具的普及将推动软件公司快速增长，尽管面临供应链瓶...