Pico-Banana-400K:一个用于文本引导图像编辑的大规模数据集

Pico-Banana-400K:一个用于文本引导图像编辑的大规模数据集

💡 原文英文,约400词,阅读约需2分钟。
📝

内容提要

Pico-Banana-400K是一个包含40万张图像的大规模数据集,旨在支持基于文本的图像编辑。该数据集通过Nano-Banana从OpenImages收集的真实照片生成多样的编辑对,确保高质量和多样性。它包括三个子集,支持多轮编辑、偏好研究和指令重写,为文本引导图像编辑模型提供基础。

🎯

关键要点

  • Pico-Banana-400K是一个包含40万张图像的大规模数据集,旨在支持基于文本的图像编辑。
  • 该数据集通过Nano-Banana从OpenImages收集的真实照片生成多样的编辑对,确保高质量和多样性。
  • Pico-Banana-400K包括三个子集:72K个多轮编辑示例、56K个偏好研究示例,以及长短编辑指令对。
  • 该数据集为文本引导图像编辑模型提供了坚实的基础,支持复杂的编辑场景研究。

延伸问答

Pico-Banana-400K数据集的主要用途是什么?

Pico-Banana-400K数据集主要用于支持基于文本的图像编辑。

Pico-Banana-400K数据集包含多少张图像?

Pico-Banana-400K数据集包含40万张图像。

Pico-Banana-400K数据集是如何生成的?

该数据集通过Nano-Banana从OpenImages收集的真实照片生成多样的编辑对。

Pico-Banana-400K数据集有哪些子集?

该数据集包括三个子集:72K个多轮编辑示例、56K个偏好研究示例,以及长短编辑指令对。

Pico-Banana-400K数据集如何支持复杂的编辑场景研究?

该数据集通过提供多轮编辑和偏好研究示例,支持复杂的编辑场景研究。

Pico-Banana-400K数据集的质量和多样性如何保证?

数据集通过细致的图像编辑分类和MLLM基础的质量评分确保高质量和多样性。

➡️

继续阅读