小红花·文摘 - 小红花技术领袖俱乐部

刚刚，GPT-5.5 发布！Claude Code 连夜治好降智，「奥特曼瘫倒」喜提续集

刚刚，GPT-5.5 发布！Claude Code 连夜治好降智，「奥特曼瘫倒」喜提续集

爱范儿 ·

Unweight是一种无损压缩系统，能够将大型语言模型（LLM）的权重缩小15-22%，而不影响输出质量。该系统通过在快速的片上内存中解压权重，避免了主内存的延迟，从而提高推理效率。在Llama-3.1-8B模型上实现了约30%的多层感知器权重压缩，节省了约3GB显存，降低了推理成本。Unweight专为数据中心的H100 GPU优化，支持多种执行策略以适应不同工作负载。

Unweight：如何在不牺牲质量的情况下将大型语言模型压缩22%

The Cloudflare Blog ·

KernelEvolve：Meta的排名工程师代理如何优化AI基础设施

KernelEvolve：Meta的排名工程师代理如何优化AI基础设施

Engineering at Meta ·

优化吞吐量的Redis用于L2 KV缓存重用

优化吞吐量的Redis用于L2 KV缓存重用

Redis Blog ·

阶跃星辰冲击百亿美金俱乐部，揭开下半场竞争核心逻辑

阶跃星辰冲击百亿美金俱乐部，揭开下半场竞争核心逻辑

全球TMT-美通国际 ·

华为在MWC 2026推出AI数据平台，旨在解决AI智能体落地的挑战，提供知识生成、推理加速和记忆管理等功能，助力企业实现数字化转型，提高知识检索精度和推理效率。

华为在MWC 2026发布AI数据平台

全球TMT-美通国际 ·

当多模态开始卷落地：MiniCPM-o-4.5仅9B覆盖实时图像理解与文本生成；vLLM Omni 同时支持文本与多模态模型的高吞吐部署与服务化

当多模态开始卷落地：MiniCPM-o-4.5仅9B覆盖实时图像理解与文本生成；vLLM Omni 同时支持文本与多模态模型的高吞吐部署与服务化

HyperAI超神经 ·

分层大语言模型架构的异步验证语义缓存

分层大语言模型架构的异步验证语义缓存

Apple Machine Learning Research ·

蚂蚁集团开源了全球首个混合线性架构的万亿参数模型Ring-2.5-1T，提升长文本推理效率3倍，达到IMO金牌水平。该模型在数学推理和代码生成等领域表现优异，适配多种智能体框架，解决了长输出场景的计算开销问题。

蚂蚁集团开源Ring-2.5-1T，全球首个混合线性架构万亿参数思考模型来了

量子位 ·

NVIDIA Dynamo Planner为多节点大语言模型推理带来基于SLO的自动化

NVIDIA Dynamo Planner为多节点大语言模型推理带来基于SLO的自动化

InfoQ ·

文心大模型5.0正式版，上线！

文心大模型5.0正式版，上线！

百度大脑 ·

字节Seed团队推出DLCM（动态大概念模型），将推理单位从Token提升至概念层级，显著提高推理效率并降低计算资源消耗，准确率提升2.69%。

字节Seed：大概念模型来了，推理的何必是下一个token

量子位 ·

推理的物理学 – 深入探讨KV缓存和提示缓存

推理的物理学 – 深入探讨KV缓存和提示缓存

Shadow Walker 松烟阁 ·

$一文通透DeepSeek-V3.2——核心在于DeepSeek Sparse Attention(简称DSA)：让q跟最相关的k/v做注意力计算，以降低MLA的计算量$

一文通透DeepSeek-V3.2——核心在于DeepSeek Sparse Attention(简称DSA)：让q跟最相关的k/v做注意力计算，以降低MLA的计算量

结构之法算法之道 ·

大型语言模型更智能地思考复杂问题的方法

大型语言模型更智能地思考复杂问题的方法

MIT News - Artificial intelligence ·

DeepSeek-V3.2-Exp模型已在华为云上线，采用稀疏Attention架构，提升推理效率，降低资源消耗，支持160K长序列，适合企业和开发者使用。

DeepSeek-V3.2-Exp第一时间上线华为云

量子位 ·

蚂蚁数科推出新隐私保护AI算法，推理效率提升超过100倍，并提出Gibbon框架，训练速度提升4倍。这两项技术在ACM CCS和IEEE TDSC会议上获奖，彰显其在隐私计算领域的领先地位。

蚂蚁数科提出隐私保护AI新算法，可将推理效率提升超过100倍

量子位 ·

OpenAI和NVIDIA通过新开放模型推动AI创新，优化全球最大AI推理基础设施

OpenAI和NVIDIA通过新开放模型推动AI创新，优化全球最大AI推理基础设施

NVIDIA Blog ·

DeepSeek的梁文锋团队在ACL 2025获得最佳论文奖，提出了原生稀疏注意力（NSA）机制，处理长文本的速度提升了11倍，性能超越传统模型。NSA通过动态分层策略优化计算，显著提高推理和训练效率，尤其在复杂推理任务中表现突出。

DeepSeek下一代技术提前曝光，梁文锋署名论文获ACL2025最佳论文奖

量子位 ·

MoMoE：内存优化的专家混合模型

MoMoE：内存优化的专家混合模型

Nathan Chen ·