HQ-Edit:面向基于指令的图像编辑的高质量数据集
💡
原文中文,约1400字,阅读约需4分钟。
📝
内容提要
本文介绍了一种基于用户书面指令的图像编辑方法,结合预训练模型生成训练数据,研究了多个数据集,推动了文本引导和区域编辑检测的研究,提出了新框架和算法,提升了图像编辑的性能和用户体验。
🎯
关键要点
- 提出了一种根据用户书面指令编辑图像的方法,结合预训练模型生成训练数据。
- 建立了包含14,905个人工编辑版本和2,981个机器生成视觉故事的数据集,探讨人类与机器编辑的关系。
- 提出新的框架利用人类反馈改进视觉编辑,学习用户偏好的奖励函数。
- 研究了基于文本到操作的模型,将编辑请求转换为可解释的编辑操作。
- 提出iEdit学习方法,包含数据集自动构建和无监督损失函数,显示出优越的编辑效果。
- 构建GRE数据集,推动生成区域编辑检测领域的研究。
- 建立WikiIns数据集,解决现有数据集信息不足的问题,通过众包验证和自动生成训练集。
- 提出SJTU-H3D数据库,包含高质量数字人类参考数据和标签失真数据,确保泛化能力。
- MagicBrush是第一个大规模手动注释的指令引导真实图像编辑数据集,展示当前算法与真实世界需求的差距。
- 基于GPT-4V的多模态基础模型提升了低级视觉感知和理解能力,建立了包含58K个反馈的Q-Pathway数据集。
❓
延伸问答
HQ-Edit的主要目标是什么?
HQ-Edit的主要目标是根据用户书面指令进行图像编辑,并结合预训练模型生成训练数据。
HQ-Edit中使用了哪些数据集?
HQ-Edit使用了包括14,905个人工编辑版本和2,981个机器生成视觉故事的数据集,以及WikiIns和SJTU-H3D等多个新数据集。
iEdit学习方法的特点是什么?
iEdit学习方法包括数据集的自动构建和无监督损失函数,显示出在图像保真度和编辑生成方面的优越效果。
MagicBrush数据集的独特之处是什么?
MagicBrush是第一个大规模手动注释的指令引导真实图像编辑数据集,展示了当前算法与真实世界需求的差距。
GRE数据集的研究目的是什么?
GRE数据集旨在推动生成区域编辑检测领域的研究,包含多种编辑方式的原始图片。
如何通过自然语言指令进行受控文本编辑?
通过建立高质量的WikiIns数据集,利用众包验证和自动生成训练集的方法来实现自然语言指令的受控文本编辑。
➡️