实时互动网 ·

ICLR 2026 | 火山引擎多媒体实验室提出GenDR, 探索扩散模型超分落地难题

💡 原文中文，约3800字，阅读约需9分钟。

📝

内容提要

扩散模型在图像生成方面取得了重要进展，但由于推理步骤多和分辨率限制，实际应用受到制约。为提高效率和图像保真度，提出了GenDR和GenDR-Pix模型，优化了VAE和UNet，支持高分辨率图像处理，增强了细节恢复效果，推动生成技术与实际业务的结合。

🎯

🔎

尽管扩散模型在图像生成领域取得了显著进展，但其在实际应用中仍面临推理步骤多和分辨率限制的问题。这些因素导致模型在处理高质量图像时的效率和保真度难以兼顾，限制了其在商业场景中的广泛应用。

GenDR模型通过优化VAE和UNet，显著提升了高分辨率图像的处理能力。其采用的步数蒸馏和特征对齐技术，不仅提高了生成效率，还增强了细节恢复效果，为图像增强业务提供了更为有效的解决方案。

GenDR-Pix在去除VAE的同时，采用Pixel-(Un)Shuffle技术，显著降低了处理时间和显存占用。这一创新使得模型在处理4K图像时，能够保持接近的效果，同时大幅提升了运行效率，适应了高分辨率图像处理的需求。

❓

GenDR模型通过优化VAE和UNet，支持高分辨率图像处理，增强细节恢复效果，提升了生成效率和质量。

GenDR-Pix去除了VAE，采用Pixel-(Un)Shuffle替代编解码模块，显著减少了处理时间和显存占用，同时保持接近的处理效果。

扩散模型在实际应用中面临推理步骤多和分辨率限制的问题，导致保真度与效率的平衡难以实现。

GenDR通过步数蒸馏和特征对齐技术，提高模型效率，减少推理时间，同时保持生成质量。

GenDR系列模型在图像增强业务中表现出色，能够有效恢复中高画质图片的细节，满足实际业务需求。

现有扩散模型在处理高质量图片时，往往无法提供足够的细节修复，导致高保真度的需求难以满足。

🏷️