苹果发布Pico-Banana-400K数据集以推动文本引导的图像编辑

苹果发布Pico-Banana-400K数据集以推动文本引导的图像编辑

💡 原文英文,约500词,阅读约需2分钟。
📝

内容提要

Pico-Banana-400K是苹果研究人员开发的40万张图像数据集,旨在促进文本引导的图像编辑模型的创建。该数据集通过Nano-Banana修改真实照片,并使用Gemini-2.5-Pro进行质量筛选,填补了高质量可共享图像编辑数据集的空白,支持多种编辑类型的研究与训练。

🎯

关键要点

  • Pico-Banana-400K是苹果研究人员开发的40万张图像数据集,旨在促进文本引导的图像编辑模型的创建。
  • 该数据集通过Nano-Banana修改真实照片,并使用Gemini-2.5-Pro进行质量筛选。
  • Pico-Banana-400K填补了高质量可共享图像编辑数据集的空白,支持多种编辑类型的研究与训练。
  • 数据集的质量和多样性通过细致的图像编辑分类法得以保证,确保了编辑类型的全面覆盖。
  • 苹果研究人员从Open Images中选择真实照片,并使用编辑提示驱动Nano-Banana进行编辑。
  • 使用Gemini-2.5-Pro分析结果,筛选失败的编辑,评估标准包括指令合规性、编辑真实感、内容保留和平衡、技术质量等。
  • 保留了约56K生成图像作为失败案例,用于稳健性和偏好学习。
  • 研究人员设计了35种编辑类型,分为八类,包括像素和光度调整、对象级语义、场景构图、风格转换等。
  • 编辑提示使用Gemini-2.5-Flash生成,并通过Qwen2.5-7B-Instruct进行总结,以获得更自然的结果。
  • Pico-Banana-400K包含257K图像和三个专业子集,支持多轮指令、失败图像研究和指令重写能力的发展。
  • Pico-Banana-400K在苹果的CDN上通过GitHub以CC BY-NC-ND 4.0许可证提供,而Open Images原始图像遵循CC BY 2.0许可证。

延伸问答

Pico-Banana-400K数据集的主要目的是什么?

Pico-Banana-400K数据集旨在促进文本引导的图像编辑模型的创建,填补高质量可共享图像编辑数据集的空白。

Pico-Banana-400K数据集是如何生成的?

该数据集通过Nano-Banana修改真实照片,并使用Gemini-2.5-Pro进行质量筛选。

Pico-Banana-400K数据集包含多少种编辑类型?

数据集设计了35种编辑类型,分为八类,包括像素和光度调整、对象级语义、场景构图等。

如何评估Pico-Banana-400K数据集中的编辑成功与否?

评估标准包括指令合规性、编辑真实感、内容保留和平衡、技术质量等。

Pico-Banana-400K数据集的可用性如何?

该数据集通过苹果的CDN在GitHub上以CC BY-NC-ND 4.0许可证提供。

Pico-Banana-400K数据集中保留了多少生成图像作为失败案例?

约56K生成图像被保留作为失败案例,用于稳健性和偏好学习。

➡️

继续阅读