💡
原文英文,约500词,阅读约需2分钟。
📝
内容提要
Pico-Banana-400K是苹果研究人员开发的40万张图像数据集,旨在促进文本引导的图像编辑模型的创建。该数据集通过Nano-Banana修改真实照片,并使用Gemini-2.5-Pro进行质量筛选,填补了高质量可共享图像编辑数据集的空白,支持多种编辑类型的研究与训练。
🎯
关键要点
- Pico-Banana-400K是苹果研究人员开发的40万张图像数据集,旨在促进文本引导的图像编辑模型的创建。
- 该数据集通过Nano-Banana修改真实照片,并使用Gemini-2.5-Pro进行质量筛选。
- Pico-Banana-400K填补了高质量可共享图像编辑数据集的空白,支持多种编辑类型的研究与训练。
- 数据集的质量和多样性通过细致的图像编辑分类法得以保证,确保了编辑类型的全面覆盖。
- 苹果研究人员从Open Images中选择真实照片,并使用编辑提示驱动Nano-Banana进行编辑。
- 使用Gemini-2.5-Pro分析结果,筛选失败的编辑,评估标准包括指令合规性、编辑真实感、内容保留和平衡、技术质量等。
- 保留了约56K生成图像作为失败案例,用于稳健性和偏好学习。
- 研究人员设计了35种编辑类型,分为八类,包括像素和光度调整、对象级语义、场景构图、风格转换等。
- 编辑提示使用Gemini-2.5-Flash生成,并通过Qwen2.5-7B-Instruct进行总结,以获得更自然的结果。
- Pico-Banana-400K包含257K图像和三个专业子集,支持多轮指令、失败图像研究和指令重写能力的发展。
- Pico-Banana-400K在苹果的CDN上通过GitHub以CC BY-NC-ND 4.0许可证提供,而Open Images原始图像遵循CC BY 2.0许可证。
❓
延伸问答
Pico-Banana-400K数据集的主要目的是什么?
Pico-Banana-400K数据集旨在促进文本引导的图像编辑模型的创建,填补高质量可共享图像编辑数据集的空白。
Pico-Banana-400K数据集是如何生成的?
该数据集通过Nano-Banana修改真实照片,并使用Gemini-2.5-Pro进行质量筛选。
Pico-Banana-400K数据集包含多少种编辑类型?
数据集设计了35种编辑类型,分为八类,包括像素和光度调整、对象级语义、场景构图等。
如何评估Pico-Banana-400K数据集中的编辑成功与否?
评估标准包括指令合规性、编辑真实感、内容保留和平衡、技术质量等。
Pico-Banana-400K数据集的可用性如何?
该数据集通过苹果的CDN在GitHub上以CC BY-NC-ND 4.0许可证提供。
Pico-Banana-400K数据集中保留了多少生成图像作为失败案例?
约56K生成图像被保留作为失败案例,用于稳健性和偏好学习。
➡️