小红花·文摘

DDPM笔记

plus studio ·

S²-Guidance方法通过随机丢弃网络模块，实现AI自我修正，显著提升生成图像和视频的质量与连贯性，简化了传统方法的调参过程。

让AI作画自己纠错！随机丢模块就能提升生成质量，告别塑料感废片

量子位 ·

扩散模型揭秘：理解DALL-E和Midjourney背后的技术

KDnuggets ·

本研究提出了一种互联网增强文本到图像生成(IA-T2I)框架，旨在改善现有模型在处理不确定知识文本提示时的不足。该框架通过参考图像和主动检索等机制，提高了生成图像的准确性和相关性，实验结果显示其性能优于现有模型，特别是在不确定知识处理上提升了约30%。

Internet-Augmented Text-to-Image Generation

BriefGPT - AI 论文速递 ·

使用Nitric和OpenAI构建无服务器表情包生成器

The New Stack ·

本文介绍了如何通过 WebUI-Forge 一键包加载 Flux.1.dev 模型生成图像。步骤包括下载一键包和模型、运行启动脚本、选择模型、设置生成参数并生成图像。用户可以调整参数以获得不同效果，并保存生成的图像。

webui-forge 使用方法

朝舞 ·

本研究提出递归扩散概率模型（RDPM），旨在解决扩散概率模型与大语言模型在生成图像和文本方面的差异。RDPM通过递归令牌预测机制增强了扩散过程，展现出优越的性能，尤其在推理速度上具有明显优势。

RDPM: Solving Diffusion Probabilistic Models through Recursive Token Prediction

BriefGPT - AI 论文速递 ·

本研究系统调查了人工智能生成图像与自然图像之间的差异，提出了评估基准和包含44万个样本的多模态数据集DNAI。结果显示在多个维度上存在显著差异，强调结合定量指标与人类判断以全面理解AI生成图像质量的重要性。

ANID: How Far Are We? Evaluating the Differences Between AI-Synthesized Images and Natural Images through Multimodal Guidance

BriefGPT - AI 论文速递 ·

本研究提出了图像再生任务，以解决文本到图像模型评估中的信息不对称问题。通过ImageRepainter框架和多样化数据集，显著提升了生成图像的质量和模型性能。

图像再生：通过多模态大语言模型生成与参考图像相同的图像来评估文本到图像模型

BriefGPT - AI 论文速递 ·

本研究探讨去噪扩散概率模型在生成图像时的潜在空间问题，指出反演技术的局限性，并证明生成图像的高层特征在训练中迅速稳定，为优化图像生成模型提供了重要见解。

归来与再出发：噪声、图像及其在扩散模型中的反演关系研究

BriefGPT - AI 论文速递 ·

本文提出了一种新的混合量子生成模型VAE-QWGAN，通过结合经典变分自编码器和量子Wasserstein生成对抗网络，提升了生成图像的质量和多样性。在MNIST和时尚MNIST数据集上表现出优越性能。

VAE-QWGAN：用于高分辨率图像生成的量子生成对抗网络改进

BriefGPT - AI 论文速递 ·

本文提出了EvalAlign评估指标，通过利用多模式大型语言模型的能力，进行生成图像的精确手动评分，使评估模型更接近人类的偏好，验证了其在模型评估中的有效性和实用性。

EvalAlign: 通过监督微调人工注释的多模态大模型的精确定位评估文本到图像模型

BriefGPT - AI 论文速递 ·

一款使用生成图像和语言模型的模拟游戏系统，通过玩家的简短描述来重塑设置和NPC的各个方面。使用Unity引擎的服务器-客户端架构实现，允许人类在模拟中存在并互动。即将在开放的alpha版本中提供，并期待与社区一同进行进一步开发。

Infinigen 室内：使用程序生成的逼真室内场景

BriefGPT - AI 论文速递 ·

本文通过实验证明了使用生成图像产生具有相同人体姿势的视觉上独特的图像，并提出了一种新颖的多正对比学习方法。该方法充分利用先前生成的图像来学习人体的结构特征。与最先进方法相比，GenPoCCL仅使用不到1%的数据量，但更有效地捕捉到人体的结构特征，在多种以人为中心的感知任务中超过了现有方法。

多正同反学习与姿态一致生成图像

BriefGPT - AI 论文速递 ·

本文介绍了一种无监督方法，用于提供训练良好的局部潜在子空间，使得通过潜在编码的导航能够保持生成图像的真实感。

训练的潜在空间导航：在基于样式的模型生成的图像中预防缺乏逼真感

BriefGPT - AI 论文速递 ·

研究发现扩散模型中存在信号泄漏偏差，可用于更好地控制生成图像，无需额外训练。通过建模信号泄漏分布并在初始潜在空间中引入信号泄漏，可以更好地匹配所期望的风格或颜色。

利用扩散模型中的信号泄漏偏差

BriefGPT - AI 论文速递 ·

该文介绍了一个可控制生成图像的框架，利用对抗性训练、明确控制的潜在空间和符号解释模型，可控制身份、年龄、姿态、表情、头发色彩和光照等方面，表现出优良的性能。

市场 - GAN：通过语义上下文为金融市场数据生成添加控制

BriefGPT - AI 论文速递 ·

通过稳定的扩散实验，研究发现像素块生成偏好主要由值而非位置决定。通过修改像素块，可以显著影响生成图像，且只影响特定区域。将生成用户所需内容倾向的像素块移动到指定区域，可实现最先进的图像生成性能。结果显示初始图像操作具有灵活性和能力。

潜意识画家

BriefGPT - AI 论文速递 ·

CFG Scale 参数控制文本提示对生成图像的影响程度，数值越大相关性越高但可能失真，最佳值介于7到11之间。较高的数值会增加饱和度和对比度，但纹理较少，超过20会导致效果变差。

Stable Diffusion 的 CFG Scale 参数 - 蝈蝈俊

蝈蝈俊 ·

Stable Diffusion高级教程 - Textual Inversion(Embedding)

小明明S À DOMICILE ·