Yi's blog ·

BrushNet与BrushEdit解析：从图像修复架构到智能编辑

💡 原文英文，约4000词，阅读约需15分钟。

📝

内容提要

本文介绍了BrushNet和BrushEdit两个AI模型。BrushNet通过双分支架构实现图像修复，逐步学习填补空白；BrushEdit则将自然语言指令转化为修复所需的掩码和提示，自动化处理过程。两者结合增强了图像编辑能力。

🎯

🔎

BrushNet采用双分支架构，保持基础U-Net模型不变，同时增加可训练的分支。这种设计避免了对原始模型的破坏，使得用户可以在不影响基础功能的情况下，逐步引入图像修复能力。这种灵活性使得BrushNet能够与不同的基础模型兼容，适应多种应用场景。

BrushEdit通过将自然语言指令转化为图像编辑任务，显著提高了用户体验。其四个模型的协同工作，能够自动生成掩码和提示，减少了用户手动操作的复杂性。这种自动化不仅提升了效率，还降低了对用户专业知识的要求，使得更多人能够轻松进行图像编辑。

尽管BrushEdit在处理图像编辑方面表现出色，但仍存在一些局限性。例如，复杂或不规则的掩码可能导致生成结果出现伪影。此外，模型的输出质量受限于基础模型的能力，无法超越其固有的生成质量。因此，用户在使用时需注意这些潜在的风险和限制。

❓

BrushNet主要用于图像修复，通过双分支架构逐步学习填补图像中的空白。

BrushEdit通过四个模型的组合，首先理解用户指令，然后定位目标对象，生成精确的掩码，最后调用BrushNet进行图像修复。

BrushNet保持原始模型不变，增加可训练的分支，而传统方法通常需要对整个模型进行微调，可能会破坏原有功能。

BrushEdit的优势在于透明性和用户控制，允许用户覆盖任何步骤，并且不需要配对的前后示例进行训练。

BrushNet的输入包括噪声潜在图、掩码图和周围上下文，确保生成内容与原图无缝融合。

BrushEdit根据编辑类型调整掩码处理方式，例如移除时扩展掩码，背景时反转掩码，以适应不同的编辑需求。

🏷️