HyperAI超神经 ·

【持续更新中！图像-文本对数据集汇总】Stable Diffusion 3 重磅开源，超全图像生成必备训练数据集、教程汇总

💡 原文中文，约3400字，阅读约需8分钟。

📝

内容提要

Stability AI开源了Stable Diffusion 3（SD3），这是一个能够根据描述性文本生成视觉作品的图像生成模型。他们还分享了10个高质量的图像-文本数据集和3个开源的图像生成教程。数据集包括WIT、RedCaps、MMDialog、DVQA、DAQUAR、COYO-700M、TDIUC、Visual7W、KVQA和CxC。教程涵盖了InstantID个性化肖像生成、ComfyUI InstantID工作流和ComfyUI Stable Cascade工作流。HyperAI是中国领先的人工智能和高性能计算社区，提供数据集、教程和文档等资源。

🎯

关键要点

Stability AI 开源了 Stable Diffusion 3（SD3），一个根据描述性文本生成视觉作品的图像生成模型。
HyperAI 提供了 10 个高质量的图像-文本数据集，包括 WIT、RedCaps、MMDialog 等。
HyperAI 还分享了 3 个开源的图像生成教程，涵盖个性化肖像生成和工作流。
WIT 数据集由 Google 发布，包含 3,760 万个图像-文本示例，适用于多模态机器学习模型的预训练。
RedCaps 数据集由密歇根大学发布，包含 120 万个图像-文本对，来源于 Reddit。
MMDialog 数据集由北京大学发布，包含 108 万个完整对话 session 和 153 万张非重复图像。
DVQA 数据集由罗彻斯特理工学院发布，测试条形图理解，包含 30 万张图像和 348 万个问题答案对。
DAQUAR 数据集由马克斯-普朗克计算机科学研究所发布，包含室内场景的 RGBD 图像。
COYO-700M 数据集由 Kakao Brain 发布，包含 7.47 亿个图像文本对。
TDIUC 数据集由罗彻斯特理工学院发布，包含 160 万个问题及 17 万张图像。
Visual7W 数据集由斯坦福大学发布，进行视觉问答任务，包含图像及相关问答。
KVQA 数据集由海得拉巴国际信息技术学院发布，包含 18.3 万个问答对。
CxC 数据集由 Google 发布，包含 247,315 个图像字幕。
InstantID 是一个基于扩散模型的个性化写真生成解决方案。
ComfyUI InstantID 工作流可以将普通人像照片转换为艺术作品。
ComfyUI Stable Cascade 工作流简化了 AI 绘画的使用流程。
HyperAI 超神经致力于成为国内数据科学领域的基础设施，提供丰富的公共资源。

❓

延伸问答

Stable Diffusion 3 是什么？

Stable Diffusion 3（SD3）是一个图像生成模型，可以根据描述性文本生成视觉作品。

有哪些高质量的图像-文本数据集可以用于训练？

包括WIT、RedCaps、MMDialog、DVQA、DAQUAR、COYO-700M、TDIUC、Visual7W、KVQA和CxC等10个数据集。

HyperAI 提供了哪些图像生成教程？

HyperAI 提供了3个图像生成教程，分别是InstantID个性化肖像生成、ComfyUI InstantID工作流和ComfyUI Stable Cascade工作流。

WIT 数据集的特点是什么？

WIT 数据集由 Google 发布，包含3,760万个图像-文本示例，适用于多模态机器学习模型的预训练。

ComfyUI InstantID 工作流的功能是什么？

ComfyUI InstantID 工作流可以将普通人像照片转换为具有高度个性化风格的艺术作品。

Stable Diffusion 3 的开源地址是什么？

Stable Diffusion 3 的开源地址是 https://huggingface.co/stabilityai/stable-diffusion-3-medium。

🏷️