bang's blog ·

在复刻黏土风图生成中学习(1) — 模型微调/LoRA 原理/图生图

💡 原文中文，约5000字，阅读约需12分钟。

📝

内容提要

本文介绍了使用Stable Diffusion生成黏土风格图像的流程与原理，推荐使用ComfyUI工具，通过加载模型和LoRA微调提升生成效果。详细解释了模型checkpoint、safetensors格式及LoRA的低秩适应原理，强调微调的高效性和计算资源节省。最终实现了图生图的工作流程，展示了如何通过输入图片生成相应风格的图像。

🎯

关键要点

使用Stable Diffusion生成黏土风格图像的流程与原理。
推荐使用ComfyUI工具，能够自由串联模块，流程更清晰。
模型checkpoint是微调训练过程中保存模型参数的状态，包含生成图所需的核心组件。
模型文件后缀.safetensors比早期的.ckpt格式更安全，速度更快。
通过微调模型，可以提高生成黏土风格图像的效果，LoRA模型适合这种风格化优化。
LoRA（低秩适应）通过低秩分解减少微调的计算资源和存储需求。
图生图的工作流程通过输入真实图片并加噪声生成相应风格的图像。
使用WD14 Tagger插件可以自动生成适用于SD提示词的标签，简化生成过程。

❓

延伸问答

如何使用Stable Diffusion生成黏土风格图像？

可以通过ComfyUI工具加载模型和LoRA微调来生成黏土风格图像，具体流程包括加载模型、编码文本、生成噪声图、降噪等步骤。

什么是LoRA模型，它的作用是什么？

LoRA（低秩适应）是一种微调模型的方法，通过低秩分解减少计算资源和存储需求，适合风格化优化。

为什么使用.safetensors格式比.ckpt格式更安全？

.safetensors格式只包含张量数据，无需反序列化，避免了恶意代码注入的风险，因此更安全且速度更快。

如何提高生成黏土风格图像的效果？

可以通过微调模型，输入更多黏土风格的图片进行训练，从而提高生成效果。

图生图的工作流程是怎样的？

图生图的工作流程是通过输入真实图片并加噪声，利用降噪过程生成相应风格的图像。

使用WD14 Tagger插件有什么好处？

WD14 Tagger插件可以自动生成适用于SD提示词的标签，简化生成过程，提高生成效率。

🏷️