HQ-Edit:面向基于指令的图像编辑的高质量数据集

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

本研究介绍了HQ-Edit,一个包含约200,000个编辑的高质量基于指令的图像编辑数据集。使用GPT-4V和DALL-E 3构建了可扩展的数据收集流程,并创建了具有详细文本提示的高质量双联图像。通过GPT-4V对图像编辑对的质量进行定量评估,HQ-Edit的高分辨率图像和全面编辑提示大大增强了现有图像编辑模型的能力。

🎯

关键要点

  • 本研究介绍了HQ-Edit,一个包含约200,000个编辑的高质量基于指令的图像编辑数据集。
  • 利用GPT-4V和DALL-E 3构建了可扩展的数据收集流程,收集多样的在线示例。
  • 创建了具有详细文本提示的高质量双联图像,并通过后期处理确保了精确的对齐。
  • 提出了两个评估指标Alignment和Coherence,用于定量评估图像编辑对的质量。
  • HQ-Edit的高分辨率图像和全面编辑提示增强了现有图像编辑模型的能力。
  • 经过微调的InstructPix2Pix达到了最先进的图像编辑性能,超过了使用人工标注数据微调的模型。
➡️

继续阅读