【持续更新中!图像-文本对数据集汇总】Stable Diffusion 3 重磅开源,超全图像生成必备训练数据集、教程汇总

💡 原文中文,约3400字,阅读约需8分钟。
📝

内容提要

Stability AI开源了Stable Diffusion 3(SD3),这是一个能够根据描述性文本生成视觉作品的图像生成模型。他们还分享了10个高质量的图像-文本数据集和3个开源的图像生成教程。数据集包括WIT、RedCaps、MMDialog、DVQA、DAQUAR、COYO-700M、TDIUC、Visual7W、KVQA和CxC。教程涵盖了InstantID个性化肖像生成、ComfyUI InstantID工作流和ComfyUI Stable Cascade工作流。HyperAI是中国领先的人工智能和高性能计算社区,提供数据集、教程和文档等资源。

🎯

关键要点

  • Stability AI 开源了 Stable Diffusion 3(SD3),一个根据描述性文本生成视觉作品的图像生成模型。
  • HyperAI 提供了 10 个高质量的图像-文本数据集,包括 WIT、RedCaps、MMDialog 等。
  • HyperAI 还分享了 3 个开源的图像生成教程,涵盖个性化肖像生成和工作流。
  • WIT 数据集由 Google 发布,包含 3,760 万个图像-文本示例,适用于多模态机器学习模型的预训练。
  • RedCaps 数据集由密歇根大学发布,包含 120 万个图像-文本对,来源于 Reddit。
  • MMDialog 数据集由北京大学发布,包含 108 万个完整对话 session 和 153 万张非重复图像。
  • DVQA 数据集由罗彻斯特理工学院发布,测试条形图理解,包含 30 万张图像和 348 万个问题答案对。
  • DAQUAR 数据集由马克斯-普朗克计算机科学研究所发布,包含室内场景的 RGBD 图像。
  • COYO-700M 数据集由 Kakao Brain 发布,包含 7.47 亿个图像文本对。
  • TDIUC 数据集由罗彻斯特理工学院发布,包含 160 万个问题及 17 万张图像。
  • Visual7W 数据集由斯坦福大学发布,进行视觉问答任务,包含图像及相关问答。
  • KVQA 数据集由海得拉巴国际信息技术学院发布,包含 18.3 万个问答对。
  • CxC 数据集由 Google 发布,包含 247,315 个图像字幕。
  • InstantID 是一个基于扩散模型的个性化写真生成解决方案。
  • ComfyUI InstantID 工作流可以将普通人像照片转换为艺术作品。
  • ComfyUI Stable Cascade 工作流简化了 AI 绘画的使用流程。
  • HyperAI 超神经致力于成为国内数据科学领域的基础设施,提供丰富的公共资源。
➡️

继续阅读