InfoQ ·

苹果发布Pico-Banana-400K数据集以推动文本引导的图像编辑

💡 原文英文，约500词，阅读约需2分钟。

📝

内容提要

Pico-Banana-400K是苹果研究人员开发的40万张图像数据集，旨在促进文本引导的图像编辑模型的创建。该数据集通过Nano-Banana修改真实照片，并使用Gemini-2.5-Pro进行质量筛选，填补了高质量可共享图像编辑数据集的空白，支持多种编辑类型的研究与训练。

🎯

关键要点

Pico-Banana-400K是苹果研究人员开发的40万张图像数据集，旨在促进文本引导的图像编辑模型的创建。
该数据集通过Nano-Banana修改真实照片，并使用Gemini-2.5-Pro进行质量筛选。
Pico-Banana-400K填补了高质量可共享图像编辑数据集的空白，支持多种编辑类型的研究与训练。
数据集的质量和多样性通过细致的图像编辑分类法得以保证，确保了编辑类型的全面覆盖。
苹果研究人员从Open Images中选择真实照片，并使用编辑提示驱动Nano-Banana进行编辑。
使用Gemini-2.5-Pro分析结果，筛选失败的编辑，评估标准包括指令合规性、编辑真实感、内容保留和平衡、技术质量等。
保留了约56K生成图像作为失败案例，用于稳健性和偏好学习。
研究人员设计了35种编辑类型，分为八类，包括像素和光度调整、对象级语义、场景构图、风格转换等。
编辑提示使用Gemini-2.5-Flash生成，并通过Qwen2.5-7B-Instruct进行总结，以获得更自然的结果。
Pico-Banana-400K包含257K图像和三个专业子集，支持多轮指令、失败图像研究和指令重写能力的发展。
Pico-Banana-400K在苹果的CDN上通过GitHub以CC BY-NC-ND 4.0许可证提供，而Open Images原始图像遵循CC BY 2.0许可证。

🔎

延伸解读

数据集的独特性与优势

Pico-Banana-400K数据集通过系统化的质量和多样性管理，填补了高质量图像编辑数据集的空白。与现有的人工筛选或完全合成的数据集相比，该数据集提供了更大规模和更高质量的共享资源，适合多种图像编辑模型的研究与开发。

编辑类型的多样性

该数据集设计了35种编辑类型，涵盖像素调整、对象语义、场景构图等多个方面。这种多样性不仅有助于提升模型的灵活性，还能推动对复杂编辑任务的深入研究，适应不同用户需求。

质量筛选的重要性

使用Gemini-2.5-Pro进行质量筛选是确保数据集可靠性的关键步骤。通过对编辑结果的严格评估，研究人员能够有效地识别和保留高质量的编辑案例，同时为后续的模型训练提供坚实基础。

开放获取与共享

Pico-Banana-400K以CC BY-NC-ND 4.0许可证在GitHub上发布，促进了学术界和工业界的合作与创新。开放获取的策略使得更多研究者能够利用这一数据集，推动文本引导图像编辑技术的发展。

❓

延伸问答

Pico-Banana-400K数据集的主要目的是什么？

Pico-Banana-400K数据集旨在促进文本引导的图像编辑模型的创建，填补高质量可共享图像编辑数据集的空白。

Pico-Banana-400K数据集是如何生成的？

该数据集通过Nano-Banana修改真实照片，并使用Gemini-2.5-Pro进行质量筛选。

Pico-Banana-400K数据集包含多少种编辑类型？

数据集设计了35种编辑类型，分为八类，包括像素和光度调整、对象级语义、场景构图等。

如何评估Pico-Banana-400K数据集中的编辑成功与否？

评估标准包括指令合规性、编辑真实感、内容保留和平衡、技术质量等。

Pico-Banana-400K数据集的可用性如何？

该数据集通过苹果的CDN在GitHub上以CC BY-NC-ND 4.0许可证提供。

Pico-Banana-400K数据集中保留了多少生成图像作为失败案例？

约56K生成图像被保留作为失败案例，用于稳健性和偏好学习。

🏷️