【持续更新中!图像-文本对数据集汇总】Stable Diffusion 3 重磅开源,超全图像生成必备训练数据集、教程汇总
内容提要
Stability AI开源了Stable Diffusion 3(SD3),这是一个能够根据描述性文本生成视觉作品的图像生成模型。他们还分享了10个高质量的图像-文本数据集和3个开源的图像生成教程。数据集包括WIT、RedCaps、MMDialog、DVQA、DAQUAR、COYO-700M、TDIUC、Visual7W、KVQA和CxC。教程涵盖了InstantID个性化肖像生成、ComfyUI InstantID工作流和ComfyUI Stable Cascade工作流。HyperAI是中国领先的人工智能和高性能计算社区,提供数据集、教程和文档等资源。
关键要点
-
Stability AI 开源了 Stable Diffusion 3(SD3),一个根据描述性文本生成视觉作品的图像生成模型。
-
HyperAI 提供了 10 个高质量的图像-文本数据集,包括 WIT、RedCaps、MMDialog 等。
-
HyperAI 还分享了 3 个开源的图像生成教程,涵盖个性化肖像生成和工作流。
-
WIT 数据集由 Google 发布,包含 3,760 万个图像-文本示例,适用于多模态机器学习模型的预训练。
-
RedCaps 数据集由密歇根大学发布,包含 120 万个图像-文本对,来源于 Reddit。
-
MMDialog 数据集由北京大学发布,包含 108 万个完整对话 session 和 153 万张非重复图像。
-
DVQA 数据集由罗彻斯特理工学院发布,测试条形图理解,包含 30 万张图像和 348 万个问题答案对。
-
DAQUAR 数据集由马克斯-普朗克计算机科学研究所发布,包含室内场景的 RGBD 图像。
-
COYO-700M 数据集由 Kakao Brain 发布,包含 7.47 亿个图像文本对。
-
TDIUC 数据集由罗彻斯特理工学院发布,包含 160 万个问题及 17 万张图像。
-
Visual7W 数据集由斯坦福大学发布,进行视觉问答任务,包含图像及相关问答。
-
KVQA 数据集由海得拉巴国际信息技术学院发布,包含 18.3 万个问答对。
-
CxC 数据集由 Google 发布,包含 247,315 个图像字幕。
-
InstantID 是一个基于扩散模型的个性化写真生成解决方案。
-
ComfyUI InstantID 工作流可以将普通人像照片转换为艺术作品。
-
ComfyUI Stable Cascade 工作流简化了 AI 绘画的使用流程。
-
HyperAI 超神经致力于成为国内数据科学领域的基础设施,提供丰富的公共资源。
延伸问答
Stable Diffusion 3 是什么?
Stable Diffusion 3(SD3)是一个图像生成模型,可以根据描述性文本生成视觉作品。
有哪些高质量的图像-文本数据集可以用于训练?
包括WIT、RedCaps、MMDialog、DVQA、DAQUAR、COYO-700M、TDIUC、Visual7W、KVQA和CxC等10个数据集。
HyperAI 提供了哪些图像生成教程?
HyperAI 提供了3个图像生成教程,分别是InstantID个性化肖像生成、ComfyUI InstantID工作流和ComfyUI Stable Cascade工作流。
WIT 数据集的特点是什么?
WIT 数据集由 Google 发布,包含3,760万个图像-文本示例,适用于多模态机器学习模型的预训练。
ComfyUI InstantID 工作流的功能是什么?
ComfyUI InstantID 工作流可以将普通人像照片转换为具有高度个性化风格的艺术作品。
Stable Diffusion 3 的开源地址是什么?
Stable Diffusion 3 的开源地址是 https://huggingface.co/stabilityai/stable-diffusion-3-medium。