小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

本研究提出了一种基于隐喻的越狱攻击方法MJA,旨在解决文本到图像模型的安全漏洞。MJA通过生成隐喻式对抗提示,提高了攻击效果和查询效率,实验结果显示其在多种模型上表现良好。

Metaphor-based Jailbreaking Attacks on Text-to-Image Models

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-23T00:00:00Z

本研究开发了Inkspire工具,旨在帮助设计师克服文本到图像模型在解析抽象语言时的困难。该工具通过草图驱动的方式增强设计师的灵感和探索能力,改善共同创造过程,推动新设计意图的实现。

Inkspire: Supporting Design Exploration with Generative AI through Analogical Sketching

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-30T00:00:00Z

本研究提出了IMAGINE-E评估工具,以解决文本到图像模型(T2I)评估不足的问题。测试了六种主流模型,结果显示FLUX.1和Ideogram2.0在特定任务中表现优异,展现了T2I模型的广泛应用潜力。

IMAGINE-E: Intelligent Evaluation of Image Generation for State-of-the-Art Text-to-Image Models

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-23T00:00:00Z

本研究提出了MEMO-Bench基准,包含7145幅肖像,旨在评估文本到图像模型和多模态大型语言模型在情感分析中的能力。结果显示,现有模型在生成积极情感方面表现较好,但在细粒度情感识别上仍与人类准确性存在差距。该基准将公开发布以促进研究。

MEMO-Bench: A Multiple Benchmark for Text-to-Image and Multimodal Large Language Models in Human Emotion Analysis

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-18T00:00:00Z
Stability AI 宣布顶级文本到图像模型与 Amazon Bedrock 的集成

Stability AI在Amazon Bedrock中推出了三个新的文本到图像模型,专注于提高多主题提示、图像质量和排版的性能。这些模型为营销、广告、媒体、娱乐和零售提供高质量的视觉效果。它们解决了渲染逼真的手和脸部的挑战,并提供了先进的提示理解。这些模型可以用于推理调用,并支持各种输入和输出模态。这些模型的集成进入Amazon Bedrock引起了不同的反应,人们对其对内容创作的潜在影响感到兴奋,同时也对集中化和数据隐私表示担忧。

Stability AI 宣布顶级文本到图像模型与 Amazon Bedrock 的集成

InfoQ
InfoQ · 2024-09-18T10:06:00Z

亚马逊Bedrock与Stability AI合作,提供适用于不同用例的文本到图像模型。这些模型可提高生产力、降低成本、改善视觉沟通,适用于媒体、营销、零售和游戏开发等行业。亚马逊Bedrock是一个托管的AWS服务,提供多种AI基础模型,包括Amazon、Titan Multimodal Embeddings、AI21 Labs、Cohere、Meta、Mistral AI和Stability AI。该服务支持现有模型和自定义数据构建Gen AI应用。

亚马逊Bedrock现已推出Stability AI的三大文本到图像模型

DEV Community
DEV Community · 2024-09-06T14:25:59Z
Stability AI 的最佳图像生成模型现已在 Amazon Bedrock 中推出

Amazon Bedrock推出了三种新的文本到图像模型:Stable Image Ultra、Stable Diffusion 3 Large和Stable Image Core。这些模型在多主题提示、图像质量和布局方面提高了性能,并能够快速生成各种营销、广告、媒体、娱乐和零售领域的高质量视觉效果。这些模型在创建具有出色细节、色彩和光照效果的逼真照片方面表现出色。它们还可以处理涉及空间推理、构图和风格的复杂指令。这些模型涵盖了不同的用例,并提供各种功能。它们可用于专业印刷、大规模应用、快速概念迭代等。文章提供了不同行业的使用案例,如广告、电子商务、媒体和娱乐。这些模型可以简化创意工作流程,增强视觉沟通,节省成本,同时提高生产力。文章还解释了如何通过Amazon Bedrock控制台、AWS CLI和AWS SDK使用这些模型。

Stability AI 的最佳图像生成模型现已在 Amazon Bedrock 中推出

亚马逊AWS官方博客
亚马逊AWS官方博客 · 2024-09-06T07:48:32Z
Flux.1:拥有120亿参数的惊人开放权重AI图像生成器

Flux.1是一套具有12亿个参数的文本到图像模型,超越了Midjourney V6、OpenAI的Dall-E 3和Stability AI的SD3 Ultra。Flux.1分为三个变体:Flux.1 Pro、Flux.1 Dev和Flux.1 Schnell。Flux.1 Pro和Flux.1 Dev在视觉质量、提示一致性、大小和方面的可变性、排版和输出多样性方面超越了Midjourney v6.0、Dall-E3和Stable Diffusion 3 Ultra。Flux.1 Pro和Flux.1 Schnell可用于商业用途,Flux.1 Dev仅限非商业用途。Flux.1需要大量计算资源,但Flux.1 Schnell已经非常好。

Flux.1:拥有120亿参数的惊人开放权重AI图像生成器

UX Magazine
UX Magazine · 2024-09-05T08:48:30Z

本文介绍了一个新的多任务基准,用于评估文本到图像模型,并比较了开源与商业模型的表现。研究探讨了多模态信息如何提升文本生成模型的能力,并提出了交互式文本到图像生成的新任务。实验结果显示,现有模型在常识推理生成方面与人类表现存在显著差距,并且存在社会偏见问题。研究旨在提升人机交互体验和图像质量。

常识 T2I 挑战:文本到图像生成模型能否理解常识?

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-11T00:00:00Z

谷歌推出了视频生成模型Veo和文本到图像模型Imagen 3,具有高质量和先进的语义理解能力。与Donald Glover和Wyclef Jean等合作推出新作品。谷歌致力于负责任地开发和部署生成技术,并采取了安全措施。

为创作者打造的新一代生成媒体模型和工具

The Keyword
The Keyword · 2024-05-14T18:00:00Z

最近的文本到图像(T2I)模型取得了巨大的成功,并提出了一个名为ImplicitBench的基准来评估其性能和安全性。实验结果表明,T2I模型能够准确地创建由隐性提示指示的各种目标符号,但隐性提示也给模型带来了隐私泄露的潜在风险,并且大多数模型中的NSFW约束可以通过隐性提示绕过。呼吁T2I社区更加关注隐性提示的潜力和风险,并进一步调查其能力和影响。

基于隐式提示的文本到图像模型的研究

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-03-04T00:00:00Z

该论文介绍了Contrastive Guidance方法,通过对分类器的简单修改,在文本到图像模型中解开图像因素,提供更精细的控制。该方法使用两个提示来描述所需的因素,其中正面提示描述待合成的图像,基准提示作为“基准”以解开其他因素。该方法在三个场景下的优势体现为:领域特定扩散模型的训练、文本到图像生成的控制以及零-shot图像编辑器的性能提升。

对比提示改善文本到图像扩散模型中的解缠

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-02-21T00:00:00Z

本研究提出了一种减轻文本到图像模型中社会偏见的方法,通过多样的文本提示和合成数据微调模型,减少了感知肤色和性别方面的偏见。多样性微调模型在群体公平指标上有显著提高。该研究将公开发布代码以推动开放研究。

SCoFT:自反对细调均衡图像生成

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-01-16T00:00:00Z

本研究提出了一种减轻文本到图像模型中社会偏见的方法,通过多样的文本提示和合成数据微调模型,提高了群体公平指标。模型生成具有感知肤色较暗和更多女性的图像。将公开发布所有代码。

新工作,新性别?衡量图像生成模型中的社会偏见

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-01-01T00:00:00Z

本研究通过与DALLE3集成的T2I模型ChatGPT重新审视现有的T2I系统,并引入新的任务——交互式文本到图像(iT2I)。我们提出了一种简单的方法来增强LLMs在iT2I上的能力,并在不同的LLMs下在多种常见场景中评估了我们的方法。

DiagrammerGPT:通过 LLM 规划生成开放领域、开放平台的图表

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-10-18T00:00:00Z
伦理与社会通讯 #4:文本到图像模型中的偏见

本文讨论了文本到图像模型中的偏见问题,以及揭示和解决这些问题的工具和潜在解决方案。在训练和查询文本到图像模型时,偏见与价值观密切相关,影响生成的图像结果。由于模型难以代表不断变化的人群价值观,揭示和解决这个问题存在伦理挑战。例如,如果训练数据主要是英文,可能传达了西方价值观,导致对其他文化的刻板印象。

伦理与社会通讯 #4:文本到图像模型中的偏见

Hugging Face - Blog
Hugging Face - Blog · 2023-06-26T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码