Apple Machine Learning Research ·

Pico-Banana-400K：一个用于文本引导图像编辑的大规模数据集

💡 原文英文，约400词，阅读约需2分钟。

📝

内容提要

Pico-Banana-400K是一个包含40万张图像的大规模数据集，旨在支持基于文本的图像编辑。该数据集通过Nano-Banana从OpenImages收集的真实照片生成多样的编辑对，确保高质量和多样性。它包括三个子集，支持多轮编辑、偏好研究和指令重写，为文本引导图像编辑模型提供基础。

🎯

🔎

Pico-Banana-400K数据集通过Nano-Banana从OpenImages收集的真实照片生成多样的编辑对，确保了数据的高质量和多样性。这种系统化的质量控制方法使得研究人员能够在不同的编辑场景中进行深入探索，尤其是在复杂的多轮编辑任务中。

该数据集包含三个子集，分别针对多轮编辑、偏好研究和指令重写。这种细分使得研究者可以针对特定的任务进行深入研究，推动文本引导图像编辑技术的发展，尤其是在训练和评估新模型时提供了丰富的资源。

Pico-Banana-400K为文本引导图像编辑模型提供了坚实的基础，可能会促进相关领域的技术进步。随着研究者利用该数据集进行创新，未来的图像编辑工具将更加智能和灵活，能够更好地满足用户需求。

❓

Pico-Banana-400K数据集主要用于支持基于文本的图像编辑。

Pico-Banana-400K数据集包含40万张图像。

该数据集通过Nano-Banana从OpenImages收集的真实照片生成多样的编辑对。

该数据集包括三个子集：72K个多轮编辑示例、56K个偏好研究示例，以及长短编辑指令对。

该数据集通过提供多轮编辑和偏好研究示例，支持复杂的编辑场景研究。

数据集通过细致的图像编辑分类和MLLM基础的质量评分确保高质量和多样性。

🏷️