机器之心 ·

rebuttal真的有用！这篇ICLR论文，所有审稿人都加了2分，直接跃升排名第9

💡 原文中文，约4600字，阅读约需11分钟。

📝

内容提要

ICLR 2025 论文《SANA》提出了一种高效的高分辨率图像合成方法，支持1024×1024至4096×4096的分辨率。研究团队采用新型自动编码器和线性注意力模块，显著提升了生成速度和质量。经过审稿人反馈，作者详细解释了创新点，最终获得更高评分，体现了积极互动的重要性。

🎯

🔎

论文《SANA》在高分辨率图像合成领域取得了显著进展，尤其是在生成速度和质量上。通过引入深度压缩自动编码器和线性注意力模块，研究团队不仅提升了生成效率，还降低了计算复杂度。这一技术突破可能会对未来的图像生成应用产生深远影响，尤其是在需要实时处理的场景中。

作者通过详细的rebuttal回应审稿人反馈，最终获得更高评分，显示出积极互动在学术评审中的重要性。审稿人与作者之间的建设性讨论不仅改善了论文质量，也促进了理解与信任。这提醒研究者在面对批评时，积极沟通和回应是提升论文质量的有效策略。

SANA模型在生成4K图像时的速度比现有最佳方法快100倍，显示出其在实际应用中的潜力。随着技术的进步，SANA的高效性可能会推动更多高分辨率图像生成应用的落地，尤其是在艺术创作、游戏开发和虚拟现实等领域。

❓

SANA论文提出了一种高效的高分辨率图像合成方法，支持1024×1024至4096×4096的分辨率，显著提升了生成速度和质量。

SANA采用了深度压缩自动编码器和线性注意力模块，计算复杂度从O(N²)降低至O(N)，并使用小型LLM作为文本编码器。

Sana-0.6B在生成4K图像时速度比当前最佳方法快100倍，并在多个基准上表现优异。

作者详细回应审稿人反馈，补充消融实验和技术细节，积极互动改善了审稿人对论文的看法，最终获得更高评分。

SANA提出了一套自动标注和训练策略，使用多个VLM重新生成描述，并设计了基于Clip Score的训练策略以提高文本图像对齐程度。

SANA有两个版本，Sana-0.6B和Sana-1.6B，前者在生成1K图像时速度比当前最佳方法快40倍，后者在多个基准上表现优异。

🏷️