实时互动网 ·

LMM-VSC：基于语义理解的超低比特率视频压缩 | ISCAS 2026

💡 原文中文，约4100字，阅读约需10分钟。

📝

内容提要

近年来，超低码率视频压缩面临性能挑战，导致视频质量下降。为此，提出了一种基于多模态大模型的语义压缩方法LMM-VSC，通过提取语义信息和生成参考视频，显著提高了超低码率下的视频质量。实验表明，该方法在保持感知质量的同时，降低了68.4%的比特率，具有较高的实际应用价值。

🎯

🔎

在超低码率视频压缩中，传统方法往往难以保持视频质量，导致细节丢失和视觉体验下降。LMM-VSC通过引入语义信息提取和生成参考视频，提供了一种新的解决方案，能够在极低带宽条件下有效提升视频质量。这一方法不仅适用于灾区救援和远程监控等场景，也为长期存储提供了新的可能性。

LMM-VSC的核心在于结合低码率参考视频与高层语义信息，通过混合解码器实现更高的视觉质量和一致性。这种方法突破了传统视频压缩的局限，强调了语义信息在视频重建中的重要性，未来可能引领视频压缩技术的发展方向，尤其是在极低码率应用场景中。

实验表明，LMM-VSC在多个数据集上均表现出色，尤其在0.02 bpp以下的超低码率条件下，感知质量明显优于传统编码器和学习式方法。这一结果不仅验证了该方法的有效性，也为实际应用提供了理论支持，尤其是在带宽受限的环境中，LMM-VSC的应用前景广阔。

❓

LMM-VSC通过提取语义信息和生成参考视频，结合低码率参考视频与高层语义信息，显著改善了视频的细节和一致性。

实验表明，LMM-VSC在保持感知质量的同时，降低了68.4%的比特率。

LMM-VSC框架包括语义信息提取器、视频编码器和混合解码器。

LMM-VSC通过引入高层语义信息，克服了传统方法在超低码率下信息不足和感知质量下降的问题。

LMM-VSC与传统视频编码标准如HM和VTM，以及学习式视频压缩方法如DCVC-DC和DCVC-FM进行了比较。

语义信息提取器从输入视频中提取精炼的语义描述，为后续的混合解码器提供内容约束。

🏷️