LDM(潜在扩散模型)仍然是主流,但高倍压缩导致信息损失。新方法JiT直接预测原始数据,简化模型架构,提升高分辨率生成效果。尽管JiT未显著超越现有SOTA,但降低了计算成本,增强了模型的可迁移性和统一性。
本研究提出了一种基于强化学习的潜在扩散模型微调方法,克服了深度学习在复杂场景中的局限性,显著提升了超分辨率图像的质量。实验结果表明,在RESISC45数据集上取得了明显的改进。
本研究改进了自回归模型用于图像生成,强调潜在空间的稳定性。通过引入高效的离散图像标记器,提升了图像生成能力,超越了LDM的表现。
通过利用潜在扩散模型的失真先验信息,提出了一种基于深度学习的遥感图像压缩方法,该方法利用生成的先验信息,通过增强网络实现对图像的质量提升。
基于车内外情景融合的动态风险评估方法,创建用于 ADAS 性能评估的多传感器数据集并融合车辆内外数据构建基于 LDM 的动态风险评估系统。
我们提出了一种称为文本引导对象生成(TOG)的新型图像编辑场景,即在实际图像中通过文本描述在空间上生成一个新的对象。我们的模型基于...
AudioLM是一个高质量的音频生成框架,通过将输入音频映射为离散令牌序列,并在该表示空间中将音频生成视为一种语言建模任务。它通过混合标记方案实现了重建质量和长期结构两个目标,并通过大量的音频波形语料库进行了训练,可以生成自然、连贯的音频持续时间。
完成下面两步后,将自动完成登录并继续当前操作。