本研究提出了一种基于隐喻的越狱攻击方法MJA,旨在解决文本到图像模型的安全漏洞。MJA通过生成隐喻式对抗提示,提高了攻击效果和查询效率,实验结果显示其在多种模型上表现良好。
本研究开发了Inkspire工具,旨在帮助设计师克服文本到图像模型在解析抽象语言时的困难。该工具通过草图驱动的方式增强设计师的灵感和探索能力,改善共同创造过程,推动新设计意图的实现。
本研究提出了IMAGINE-E评估工具,以解决文本到图像模型(T2I)评估不足的问题。测试了六种主流模型,结果显示FLUX.1和Ideogram2.0在特定任务中表现优异,展现了T2I模型的广泛应用潜力。
本研究提出了MEMO-Bench基准,包含7145幅肖像,旨在评估文本到图像模型和多模态大型语言模型在情感分析中的能力。结果显示,现有模型在生成积极情感方面表现较好,但在细粒度情感识别上仍与人类准确性存在差距。该基准将公开发布以促进研究。
Stability AI在Amazon Bedrock中推出了三个新的文本到图像模型,专注于提高多主题提示、图像质量和排版的性能。这些模型为营销、广告、媒体、娱乐和零售提供高质量的视觉效果。它们解决了渲染逼真的手和脸部的挑战,并提供了先进的提示理解。这些模型可以用于推理调用,并支持各种输入和输出模态。这些模型的集成进入Amazon Bedrock引起了不同的反应,人们对其对内容创作的潜在影响感到兴奋,同时也对集中化和数据隐私表示担忧。
使用人类反馈数据训练奖励函数来微调文本到图像模型,但过度优化奖励模型可能损害性能。引入Text-Image Alignment Assessment (TIA2)基准,评估奖励模型与人类评估的一致性。发现不良对齐的奖励模型导致过度优化。提出TextNorm方法,通过语义对比的文本提示增强对齐。在微调中整合置信度校准的奖励可减少过度优化,相对于基线模型,在人类评估中获得两倍胜利。
亚马逊Bedrock与Stability AI合作,提供适用于不同用例的文本到图像模型。这些模型可提高生产力、降低成本、改善视觉沟通,适用于媒体、营销、零售和游戏开发等行业。亚马逊Bedrock是一个托管的AWS服务,提供多种AI基础模型,包括Amazon、Titan Multimodal Embeddings、AI21 Labs、Cohere、Meta、Mistral AI和Stability AI。该服务支持现有模型和自定义数据构建Gen AI应用。
Amazon Bedrock推出了三种新的文本到图像模型:Stable Image Ultra、Stable Diffusion 3 Large和Stable Image Core。这些模型在多主题提示、图像质量和布局方面提高了性能,并能够快速生成各种营销、广告、媒体、娱乐和零售领域的高质量视觉效果。这些模型在创建具有出色细节、色彩和光照效果的逼真照片方面表现出色。它们还可以处理涉及空间推理、构图和风格的复杂指令。这些模型涵盖了不同的用例,并提供各种功能。它们可用于专业印刷、大规模应用、快速概念迭代等。文章提供了不同行业的使用案例,如广告、电子商务、媒体和娱乐。这些模型可以简化创意工作流程,增强视觉沟通,节省成本,同时提高生产力。文章还解释了如何通过Amazon Bedrock控制台、AWS CLI和AWS SDK使用这些模型。
Flux.1是一套具有12亿个参数的文本到图像模型,超越了Midjourney V6、OpenAI的Dall-E 3和Stability AI的SD3 Ultra。Flux.1分为三个变体:Flux.1 Pro、Flux.1 Dev和Flux.1 Schnell。Flux.1 Pro和Flux.1 Dev在视觉质量、提示一致性、大小和方面的可变性、排版和输出多样性方面超越了Midjourney v6.0、Dall-E3和Stable Diffusion 3 Ultra。Flux.1 Pro和Flux.1 Schnell可用于商业用途,Flux.1 Dev仅限非商业用途。Flux.1需要大量计算资源,但Flux.1 Schnell已经非常好。
LaVie是一个整合的视频生成框架,利用预训练的文本到图像模型生成高质量的文本到视频模型。LaVie通过时间自注意机制和联合图像-视频微调生成逼真且时间连贯的视频,并保留预训练模型的创造性。经实验证明,LaVie在性能上表现出色,适用于长视频生成和个性化视频合成应用。
该论文介绍了Contrastive Guidance方法,通过修改分类器,实现对文本到图像模型的精细控制。该方法使用正面提示和基准提示来描述所需的图像因素。该方法在领域特定扩散模型训练、文本到图像生成和零-shot图像编辑器性能方面具有优势。
使用DEADiff解决了基于编码器的文本到图像模型在转换风格时的问题,展示了其在视觉风格化方面的最佳结果和在文本到图像模型中文本可控性和风格相似性之间的最佳平衡。
本文介绍了一种通过CAD图像提示来改善设计可行性的方法,并通过自行车设计任务的案例研究探究了该方法的实用性。结果表明CAD图像提示成功地帮助了文本到图像模型创建更具可行性的设计图像,并提供了在工程设计过程中选择适当的CAD图像提示权重的指南。有效利用该方法可以拓宽文本到图像模型在工程设计中的应用范围。
近年来,文本到图像(T2I)模型取得了显著进展并广泛应用。然而,滥用T2I模型的潜在风险引入了MMA-Diffusion框架,揭示了现有防御机制的弱点。
谷歌推出了视频生成模型Veo和文本到图像模型Imagen 3,具有高质量和先进的语义理解能力。与Donald Glover和Wyclef Jean等合作推出新作品。谷歌致力于负责任地开发和部署生成技术,并采取了安全措施。
最近的文本到图像(T2I)模型取得了巨大成功,提出了一个名为ImplicitBench的基准来评估其性能和安全性。实验结果显示,T2I模型能够准确创建由隐性提示指示的目标符号,但隐性提示也带来了隐私泄露的潜在风险。大多数模型中的NSFW约束可以通过隐性提示绕过。呼吁T2I社区更关注隐性提示的潜力和风险,并进一步调查其能力和影响。
本研究发现,对于扩大规模的文本到图像模型,跨向量关注的位置和数量对性能有差异性,增加Transformer模块比增加通道数量更有效。训练集的质量和多样性比大小更重要,增加标题密度和多样性可以提高对齐性能和学习效率。研究还提供了预测对齐性能的缩放函数。
近年来,文本到图像(T2I)模型取得了显著进展并广泛应用,但也带来了滥用的潜在风险。研究人员引入了MMA-Diffusion框架,绕过当前的防御措施,揭示现有防御机制的弱点。
使用人类反馈数据训练奖励函数来微调文本到图像模型,但过度优化奖励模型可能损害性能。引入Text-Image Alignment Assessment (TIA2)基准,评估了几个奖励模型,发现与人类评估不一致。提出TextNorm方法,通过语义对比的文本提示增强对齐,有效减少过度优化。在文本到图像对齐的人类评估中获得两倍胜利。
最近的文本到图像(T2I)模型取得了巨大成功,并提出了一个名为ImplicitBench的基准来评估其性能和安全性。实验结果显示,T2I模型能够准确创建由隐性提示指示的目标符号,但隐性提示也带来了隐私泄露的潜在风险。大多数评估的T2I模型中的NSFW约束可以通过隐性提示绕过。呼吁T2I社区更关注隐性提示的潜力和风险,并进一步调查其能力和影响。
完成下面两步后,将自动完成登录并继续当前操作。