小红花·文摘

LDM（潜在扩散模型）仍然是主流，但高倍压缩导致信息损失。新方法JiT直接预测原始数据，简化模型架构，提升高分辨率生成效果。尽管JiT未显著超越现有SOTA，但降低了计算成本，增强了模型的可迁移性和统一性。

科学空间|Scientific Spaces ·

本研究提出了一种基于强化学习的潜在扩散模型微调方法，克服了深度学习在复杂场景中的局限性，显著提升了超分辨率图像的质量。实验结果表明，在RESISC45数据集上取得了明显的改进。

BriefGPT - AI 论文速递 ·

本研究改进了自回归模型用于图像生成，强调潜在空间的稳定性。通过引入高效的离散图像标记器，提升了图像生成能力，超越了LDM的表现。

BriefGPT - AI 论文速递 ·

通过利用潜在扩散模型的失真先验信息，提出了一种基于深度学习的遥感图像压缩方法，该方法利用生成的先验信息，通过增强网络实现对图像的质量提升。

BriefGPT - AI 论文速递 ·

基于车内外情景融合的动态风险评估方法，创建用于 ADAS 性能评估的多传感器数据集并融合车辆内外数据构建基于 LDM 的动态风险评估系统。

BriefGPT - AI 论文速递 ·

我们提出了一种称为文本引导对象生成（TOG）的新型图像编辑场景，即在实际图像中通过文本描述在空间上生成一个新的对象。我们的模型基于...

BriefGPT - AI 论文速递 ·

AudioLM是一个高质量的音频生成框架，通过将输入音频映射为离散令牌序列，并在该表示空间中将音频生成视为一种语言建模任务。它通过混合标记方案实现了重建质量和长期结构两个目标，并通过大量的音频波形语料库进行了训练，可以生成自然、连贯的音频持续时间。

BriefGPT - AI 论文速递 ·