本文提出了一种名为DeepHQ的渐进式图像压缩方法,通过学习量化步长提升压缩效率,并引入选择性压缩,仅编码必要的特征,显著减少模型参数和解码时间。
DCM标准已获国家标准立项,标志着我国在基于人工智能的图像编码领域的新进展。该标准旨在以低计算成本实现高效压缩,广泛应用于工业和医疗等领域。与国际标准相比,DCM在相同精度下可节省60.73%至76.39%的数据量,提升AI效率。该技术已在卫星通信等场景中试点应用,有效解决高丢包和高时延下的实时通信问题。
我在研究Step1X-Edit扩散模型,该模型通过vlm编码文字指令和图像,提供高效的图片编辑解决方案。文章详细描述了模型的执行流程,包括图像编码、降采样、噪声构建和去噪过程,旨在分享对该模型的理解和应用。
第五届全国人工智能大赛(NAIC)将于12月13日启动,设有多个赛道,奖金总额233万元。其中“AI+图像编码”赛道报名截止至2月28日,旨在解决解码复杂度、模型泛化性和主观质量提升的挑战,要求参赛者在限定条件下进行图像高保真重建。大赛由深圳市科技创新局等主办,提供高质量数据和算力支持。
AMD 的 David Rosca 在 Mesa 24.3 中改进了开源视频加速,新增对 AV1 静态图像编码的支持,主要用于 AVIF 图像。通过修改约 100 行代码,Radeon GPU 上的静态图像编码功能现已正常工作。
本文研究多视图图像压缩中的问题,现有方法在视差较大时效果不佳。我们提出了一种基于学习的3D高斯几何先验的多视图图像编码方法,能够更准确地估计视差,并通过深度图压缩模型减少视图之间的冗余信息。实验表明,该方法在性能上优于传统和学习基础的方法,同时保持快速的编码和解码速度。
该文章介绍了一种图像压缩方法,通过非线性分析变换、均匀量化器和非线性合成变换构建变换。该方法在速率失真性能和视觉质量方面优于标准JPEG和JPEG2000压缩方法。
本研究针对传统图像压缩方法未能满足机器智能任务的需求,提出了一种新颖的图像编码框架ICM,通过利用大规模多模态模型(LMMs)的语义理解能力,在压缩前解耦图像内容,从而实现更符合下游任务需求的编码。该方法“SDComp”显示出更灵活的重建结果和优越的视觉质量,能够有效支持多种视觉分析任务。
通过分析电磁波对降雨的影响,以及其对移动网络性能的影响,本文提出了一种将时间序列数据编码为图像并利用卷积神经网络作为图像分类问题的新方法,以解决在 4G/LTE...
本研究提出了一种端到端学习的图像压缩编解码器,通过同时训练分析变换和目标分类任务,证实压缩的潜在表示能够准确预测人的感知距离判断。实验结果显示,现成的神经编码器在感知建模方面表现出色,无需额外的VGG网络。该研究对开发语义感知和编码高效的神经编码器具有参考价值。
我们提出了一种基于学习的可扩展图像编码方法,通过特征融合网络实现高效的图像压缩,并减少参数数量。评估结果证明了该方法的有效性。
本文介绍了一种名为SA-ICM的图像编码方法,该方法关注对象图像部分的边缘信息的编码和解码,具有鲁棒性和隐私保护。SA-ICM方法还可用于训练视频压缩模型NeRV,通过使用Segment Anything创建的边缘信息,可以创建适用于图像识别的SA-NeRV模型。实验结果证实SA-ICM在图像压缩方面的优势,并且SA-NeRV在视频压缩中优于普通的NeRV。
该研究提出使用神经网络辅助的额外lifting步骤来增强传统小波变换中的冗余性,提高降低分辨率后重建图像的视觉质量。应用于JPEG 2000图像编码标准中,能够在广泛的比特率范围内实现高达17.4%的平均BD比特率节省,同时保持JPEG 2000的质量和分辨率可扩展特性。
本研究提出了一种基于对抗训练的图像编码技术,提高视觉质量,保持机器分析准确性,无需增加比特率或参数。实验证明,该技术消除棋盘格伪影,提高像素和特征保真度分数。
图像编码技术旨在降低图像表示所需的比特率,同时最大程度地减少机器视觉分析准确性的下降。本研究提出了一种基于对抗训练的有效解码器微调方案,以显著提高图像编码技术的视觉质量,同时保持机器分析准确性,无需在推理阶段增加额外的比特率或参数。实验结果表明,在忽略任务性能分数相对变化 - 1.6%...
本研究提出了一种名为 NN-VVC 的混合编解码器,结合了 E2E-learned 图像编解码器和传统视频编解码器 (CVC),在图像和视频编码领域为机器实现高性能。实验证明,该系统在多个数据集和机器视觉任务上较 VVC 实现了高达 - 43.20% 和 - 26.8% 的 Bjøntegaard Delta 速率减小。据我们所知,这是第一篇在多个数据集和多个机器视觉任务上展示了优于...
提出了一种基于超维计算的新型轻量级编码方法,通过兴趣点选择和局部线性映射来保留附近位置模式的相似性,达到了对 MNIST 和 Fashion-MNIST 数据集分别为 97.35% 和 84.12% 的准确率,并且相对于基准编码方法,该方法还表现出更高的噪音和模糊容忍度。
本研究使用分块匹配算法和相似度/不相似度测量对图像进行编码,并通过量子傅里叶变换和Swap测试进行相似度度量。结果表明,该方法在理想和噪声模拟以及与IBM和Ionq量子设备进行Swap测试的情况下均获得了良好的效果。
使用VISION模型预测人类大脑对自然图像的fMRI扫描反应,准确度超过现有技术45%,揭示了视觉区域的表征偏差,为视觉皮层功能分析提供了可能性。
该文介绍了一种新颖的自监督式FSS框架,用于解决图像分解问题。该方法通过特征亲和力矩阵的特征向量分析来估计感兴趣对象的分布,并利用从支持图像获得的特征向量自适应地估计查询掩码,从而消除了手动注释的需求。同时,引入了多尺度大卷积核注意力模块,提高了对支持图像提供的信息进行查询图像解码的能力。实验结果表明,该方法在自然和医学图像数据集上具有高效性和有效性。
完成下面两步后,将自动完成登录并继续当前操作。