实时互动网 ·

CMIC：使用具有冗余感知的状态空间模型压缩图像 | ICLR 2026

💡 原文中文，约6000字，阅读约需15分钟。

📝

内容提要

本文提出了一种动态状态空间模型Content-Aware Mamba（CAM），并基于此构建了图像压缩模型CMIC。CMIC通过内容自适应token重排和全局先验提示，增强了长距离冗余建模能力，在多个数据集上实现了SOTA性能。

🎯

关键要点

提出了一种动态状态空间模型Content-Aware Mamba（CAM）
基于CAM构建了图像压缩模型CMIC
CMIC通过内容自适应token重排和全局先验提示增强长距离冗余建模能力
CMIC在Kodak、Tecnick和CLIC数据集上实现了SOTA性能
标准Mamba在图像压缩中存在固定raster scan和严格因果建模的瓶颈
CMIC引入内容自适应token重排（CTP）以优化扫描顺序
CMIC使用全局先验提示（GPP）来缓解严格因果约束
CMIC的设计兼顾局部细节和全局压缩效率
CMIC在多个数据集上相对VTM-21.0取得显著的码率节省
CMIC的参数量和计算复杂度相对较低，具有较高的效率
CMIC通过有效感受野（ERF）展示了对冗余分布的感知能力
CMIC的核心在于优化扫描顺序和信息流方式以提升图像压缩性能

❓

延伸问答

CMIC模型的核心创新是什么？

CMIC模型的核心创新在于引入了内容自适应token重排和全局先验提示，以优化扫描顺序和信息流，从而提升图像压缩性能。

CMIC在图像压缩中相较于标准Mamba有哪些优势？

CMIC相较于标准Mamba，能够更有效地建模长距离冗余，避免了固定的raster scan和严格因果建模的瓶颈，提升了压缩效率。

CMIC在Kodak、Tecnick和CLIC数据集上的表现如何？

CMIC在Kodak、Tecnick和CLIC数据集上分别实现了15.91%、21.34%和17.58%的码率节省，达到了SOTA性能。

什么是内容自适应token重排（CTP）？

内容自适应token重排（CTP）是CMIC中的一个模块，它将相似内容的token聚集在一起，以优化扫描顺序，提高冗余建模能力。

全局先验提示（GPP）在CMIC中起什么作用？

全局先验提示（GPP）在CMIC中用于注入样本级的全局统计信息，帮助模型在扫描过程中打破严格的因果约束，提升信息流的有效性。

CMIC的计算复杂度和参数量如何？

CMIC的参数量为69.11M，FLOPs为2.39T，解码延迟约为0.405秒，峰值显存约为4.44GB，显示出较高的效率。

🏷️

继续阅读

微软在Build大会发布七款MAI新模型：顶尖MAI-Thinking-1深度拆解
微软在Build大会上发布了七款新AI模型，特别是MAI-Thinking-1，展示了其完整的AI产业链。通过自研MAIA芯片和大量人类数据训练，微软实现...
模型评估：证明您的路由策略确实有效
本文介绍了DigitalOcean的模型评估功能，帮助团队在真实工作负载下评估不同的推理策略。用户可以通过比较多种模型和路由策略来优化成本、延迟和输出质量...
Nvidia最新模型现已上线
Nvidia发布了Nemotron 3 Ultra模型，拥有5500亿参数，支持高达100万标记的上下文窗口。该模型速度显著提升，能节省用户30%的成本。...
Mate Security的Asaf Wiener让每位后端工程师成为模型路由器。他这样做是正确的。
Mate Security的CEO Asaf Wiener强调AI原生公司的成本管理重要性。他通过细分AI模型的成本，确保每个后端工程师参与模型选择和评估...
Galaxea G0.5——升级“VLA自回归建模”范式：摒弃VLM上添加动作专家的模式，而是构建统一模型，用一套权重，在同一个自回归token序列中同时生成推理与动作
星海图提出的G0.5模型将视觉语言模型与动作生成统一为单一自回归序列，通过共享权重实现推理与动作的耦合，提升机器人控制效率。该模型采用可学习的动作分词器和...
花100多块钱做了个极空间NAS监控屏，固件已开源！
熊猫分享了一个DIY NAS监控屏项目，使用ESP开发板和Docker获取NAS信息。项目包括多页UI显示、触摸屏操作和Web后台设置，硬件为5寸LCD触...