plus studio ·

StableDiffusion笔记

💡 原文中文，约1800字，阅读约需5分钟。

📝

内容提要

Stable Diffusion是一种图像生成方法，由Stability AI和Runway基于LDM1提出。该方法通过随机种子生成噪声，利用文本编码器将输入提示转换为向量，并通过Unet网络处理，最终生成高分辨率图像。Unet中加入了交叉注意力机制，提升了生成效果。

🎯

🔎

Stable Diffusion通过随机种子生成噪声，并利用文本编码器将输入提示转换为向量。这一过程使得图像生成不仅依赖于随机性，还与输入的文本提示紧密相关，确保生成的图像能够反映出用户的意图。

Unet网络在Stable Diffusion中引入了交叉注意力机制，这一创新显著提升了生成图像的质量。交叉注意力机制能够更好地处理文本与图像之间的关系，使得生成的图像在语义上更加准确和丰富。

Stable Diffusion采用反向扩散过程，通过多轮预测逐步生成高分辨率图像。这种方法不仅提高了图像的细节和清晰度，还允许模型在生成过程中不断调整，优化最终输出的效果。

❓

Stable Diffusion是一种图像生成方法，由Stability AI和Runway基于LDM1提出。

该方法通过随机种子生成噪声，利用文本编码器将输入提示转换为向量，然后通过Unet网络处理生成高分辨率图像。

Unet网络处理随机噪声和文本向量，并通过反向扩散过程进行多轮预测，逐步生成高分辨率图像。

Unet中加入了交叉注意力机制，以提升生成效果。

输入数据包括随机种子生成的噪声和通过文本编码器转换的文本向量。

在反向扩散过程中，输入的文本向量和噪声图片经过多轮Unet网络，每轮预测一个噪声，逐步生成清晰的图像。

🏷️