小红花·文摘

本研究提出了一种基于隐喻的越狱攻击方法MJA，旨在解决文本到图像模型的安全漏洞。MJA通过生成隐喻式对抗提示，提高了攻击效果和查询效率，实验结果显示其在多种模型上表现良好。

Metaphor-based Jailbreaking Attacks on Text-to-Image Models

BriefGPT - AI 论文速递 ·

本研究开发了Inkspire工具，旨在帮助设计师克服文本到图像模型在解析抽象语言时的困难。该工具通过草图驱动的方式增强设计师的灵感和探索能力，改善共同创造过程，推动新设计意图的实现。

Inkspire: Supporting Design Exploration with Generative AI through Analogical Sketching

BriefGPT - AI 论文速递 ·

本研究提出了IMAGINE-E评估工具，以解决文本到图像模型（T2I）评估不足的问题。测试了六种主流模型，结果显示FLUX.1和Ideogram2.0在特定任务中表现优异，展现了T2I模型的广泛应用潜力。

IMAGINE-E: Intelligent Evaluation of Image Generation for State-of-the-Art Text-to-Image Models

BriefGPT - AI 论文速递 ·

本研究提出了MEMO-Bench基准，包含7145幅肖像，旨在评估文本到图像模型和多模态大型语言模型在情感分析中的能力。结果显示，现有模型在生成积极情感方面表现较好，但在细粒度情感识别上仍与人类准确性存在差距。该基准将公开发布以促进研究。

MEMO-Bench: A Multiple Benchmark for Text-to-Image and Multimodal Large Language Models in Human Emotion Analysis

BriefGPT - AI 论文速递 ·

Stability AI 宣布顶级文本到图像模型与 Amazon Bedrock 的集成

InfoQ ·

使用人类反馈数据训练奖励函数来微调文本到图像模型，但过度优化奖励模型可能损害性能。引入Text-Image Alignment Assessment (TIA2)基准，评估奖励模型与人类评估的一致性。发现不良对齐的奖励模型导致过度优化。提出TextNorm方法，通过语义对比的文本提示增强对齐。在微调中整合置信度校准的奖励可减少过度优化，相对于基线模型，在人类评估中获得两倍胜利。

阐明文本到图像扩散模型中的最佳奖励-多样性权衡

BriefGPT - AI 论文速递 ·

亚马逊Bedrock与Stability AI合作，提供适用于不同用例的文本到图像模型。这些模型可提高生产力、降低成本、改善视觉沟通，适用于媒体、营销、零售和游戏开发等行业。亚马逊Bedrock是一个托管的AWS服务，提供多种AI基础模型，包括Amazon、Titan Multimodal Embeddings、AI21 Labs、Cohere、Meta、Mistral AI和Stability AI。该服务支持现有模型和自定义数据构建Gen AI应用。

亚马逊Bedrock现已推出Stability AI的三大文本到图像模型

DEV Community ·

Stability AI 的最佳图像生成模型现已在 Amazon Bedrock 中推出

亚马逊AWS官方博客 ·

Flux.1：拥有120亿参数的惊人开放权重AI图像生成器

UX Magazine ·

LaVie是一个整合的视频生成框架，利用预训练的文本到图像模型生成高质量的文本到视频模型。LaVie通过时间自注意机制和联合图像-视频微调生成逼真且时间连贯的视频，并保留预训练模型的创造性。经实验证明，LaVie在性能上表现出色，适用于长视频生成和个性化视频合成应用。

xGen-VideoSyn-1：高保真文本到视频合成与压缩表示

BriefGPT - AI 论文速递 ·

该论文介绍了Contrastive Guidance方法，通过修改分类器，实现对文本到图像模型的精细控制。该方法使用正面提示和基准提示来描述所需的图像因素。该方法在领域特定扩散模型训练、文本到图像生成和零-shot图像编辑器性能方面具有优势。

基于提示引导的图像自适应神经隐式查找表用于可解释的图像增强

BriefGPT - AI 论文速递 ·

使用DEADiff解决了基于编码器的文本到图像模型在转换风格时的问题，展示了其在视觉风格化方面的最佳结果和在文本到图像模型中文本可控性和风格相似性之间的最佳平衡。

D2Styler：利用离散扩散方法推进任意风格转移

BriefGPT - AI 论文速递 ·

本文介绍了一种通过CAD图像提示来改善设计可行性的方法，并通过自行车设计任务的案例研究探究了该方法的实用性。结果表明CAD图像提示成功地帮助了文本到图像模型创建更具可行性的设计图像，并提供了在工程设计过程中选择适当的CAD图像提示权重的指南。有效利用该方法可以拓宽文本到图像模型在工程设计中的应用范围。

CAD 引导的生成模型：可行性和新颖性工程设计之路

BriefGPT - AI 论文速递 ·

近年来，文本到图像（T2I）模型取得了显著进展并广泛应用。然而，滥用T2I模型的潜在风险引入了MMA-Diffusion框架，揭示了现有防御机制的弱点。

Dimba: Transformer-Mamba 扩散模型

BriefGPT - AI 论文速递 ·

谷歌推出了视频生成模型Veo和文本到图像模型Imagen 3，具有高质量和先进的语义理解能力。与Donald Glover和Wyclef Jean等合作推出新作品。谷歌致力于负责任地开发和部署生成技术，并采取了安全措施。

为创作者打造的新一代生成媒体模型和工具

The Keyword ·

最近的文本到图像（T2I）模型取得了巨大成功，提出了一个名为ImplicitBench的基准来评估其性能和安全性。实验结果显示，T2I模型能够准确创建由隐性提示指示的目标符号，但隐性提示也带来了隐私泄露的潜在风险。大多数模型中的NSFW约束可以通过隐性提示绕过。呼吁T2I社区更关注隐性提示的潜力和风险，并进一步调查其能力和影响。

使用 Gecko 重新审视文本到图像评估：关于指标、提示和人类评级

BriefGPT - AI 论文速递 ·

本研究发现，对于扩大规模的文本到图像模型，跨向量关注的位置和数量对性能有差异性，增加Transformer模块比增加通道数量更有效。训练集的质量和多样性比大小更重要，增加标题密度和多样性可以提高对齐性能和学习效率。研究还提供了预测对齐性能的缩放函数。

Diffscaler：增强扩散变压器的生成能力

BriefGPT - AI 论文速递 ·

近年来，文本到图像（T2I）模型取得了显著进展并广泛应用，但也带来了滥用的潜在风险。研究人员引入了MMA-Diffusion框架，绕过当前的防御措施，揭示现有防御机制的弱点。

SafeGen: 缓解文本生成图像模型的不安全内容

BriefGPT - AI 论文速递 ·

使用人类反馈数据训练奖励函数来微调文本到图像模型，但过度优化奖励模型可能损害性能。引入Text-Image Alignment Assessment (TIA2)基准，评估了几个奖励模型，发现与人类评估不一致。提出TextNorm方法，通过语义对比的文本提示增强对齐，有效减少过度优化。在文本到图像对齐的人类评估中获得两倍胜利。

细调文本 - 图像模型的自信度感知奖励优化

BriefGPT - AI 论文速递 ·

最近的文本到图像（T2I）模型取得了巨大成功，并提出了一个名为ImplicitBench的基准来评估其性能和安全性。实验结果显示，T2I模型能够准确创建由隐性提示指示的目标符号，但隐性提示也带来了隐私泄露的潜在风险。大多数评估的T2I模型中的NSFW约束可以通过隐性提示绕过。呼吁T2I社区更关注隐性提示的潜力和风险，并进一步调查其能力和影响。

通过自动提示优化提升文本到图像的一致性

BriefGPT - AI 论文速递 ·