小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

本研究提出了一种结合大语言模型与图像生成模型的语义进化框架,旨在解决模型对特定语义概念的敏感性问题,识别影响模型表现的敏感语义,并验证了该方法的有效性。

Blind Spot Navigation: Evolutionary Discovery of Sensitive Semantic Concepts in Large Visual Language Models

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-21T00:00:00Z

本研究提出了一种视觉引导解码方法,利用大型语言模型生成文本提示,以指导图像生成模型。该方法通过CLIP得分确保提示与用户视觉概念一致,提升了提示生成的可解释性和灵活性。实验结果表明,该方法在生成可理解且相关的提示方面优于现有技术,增强了文本到图像模型的互动可控性。

Visually Guided Decoding: Gradient-Free Hard Prompt Inversion with Language Models

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-13T00:00:00Z
🧠 图像之战:OpenAI vs Grok — 谁是真正的视觉天才?

OpenAI在过去24小时内推出的新图像生成模型表现出色,成功超越Grok,在涂鸦、表情包和生日邀请设计等多个挑战中获胜,显示出其可能改变设计工具未来的潜力。

🧠 图像之战:OpenAI vs Grok — 谁是真正的视觉天才?

DEV Community
DEV Community · 2025-03-27T06:31:20Z

本文介绍了多种图像生成模型的进展,包括MaskGIT、AutoNAT和现代化的VQGAN。研究表明,基于标记预测的方法在效率和图像质量上具有优势,尤其在高分辨率图像生成中表现突出。这些模型在ImageNet数据集上取得了优异的结果,推动了图像生成领域的创新。

ENAT:重新思考基于令牌的图像合成中的时空交互

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-11T00:00:00Z
Flux.1 入门必知:硬件、环境、模型

Flux.1和ComfyUI是数字艺术领域的两个重要关键词。Flux.1是一种先进的图像生成模型,以其文本转图像能力和高质量图像输出而闻名。ComfyUI是一个基于节点的图形用户界面,专为稳定扩散设计,提供高度定制和模块化工作流程。本文探讨了Flux.1和ComfyUI的核心概念和特点,以帮助读者更好地了解它们的优势。Flux.1有三个版本:Pro、Dev和Schnell,每个版本都有特定的应用和许可要求。文章还讨论了Flux.1的硬件和软件要求,以及模型的不同版本。

Flux.1 入门必知:硬件、环境、模型

碎言博客
碎言博客 · 2024-09-22T20:45:05Z

本文研究了图像生成模型的现状与进展,提出了一种统一语言界面,将计算机视觉任务转化为文本到图像生成问题。通过使用大规模语言模型和InstructPix2Pix架构,创建了多模态训练数据集,提升了模型在视觉任务中的表现和泛化能力。同时,探讨了基于Transformer的扩散模型在图像和视频生成中的应用,推动了计算机视觉领域的创新。

OmniGen:统一图像生成

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-09-17T00:00:00Z

谷歌正在推出Gemini平台的新功能,包括Gems,允许用户在任何主题上创建定制的AI专家。Gems可用于编码、职业建议、头脑风暴和写作等任务。谷歌还推出了Imagen 3,这是一个升级的图像生成模型,可以用几个词语创建高质量的图像。Imagen 3将提供多种风格和语言。谷歌还在努力生成人物图像,并为部分用户提供早期访问版本。该公司专注于用户控制和改善用户体验。

Gemini 新功能:定制化 Gems 和升级版 Imagen 3 图像生成

The Keyword
The Keyword · 2024-08-28T16:00:00Z

本文探讨了生成图像质量评估指标,指出FID和IS存在偏差,提出了新的CMMD和SID指标,以更可靠地评估图像生成模型的性能。研究表明,这些新指标能有效提高评估准确性,推动图像生成技术的发展。

球面图像的几何保真度

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-25T00:00:00Z

人工智能AI图像生成模型SD发布新许可证,年收入低于100万美元可免费商业使用。模型托管平台Civitai暂停发布基于Stability AI的模型,担心版权问题。Stability AI发布新许可证,提供社区非商业版和社区商业版两种许可证,年收入超过100万美元的企业需升级到企业版许可证。

AI图像生成模型SD公布新许可证 年收入100万美元以内免费商业性使用

蓝点网
蓝点网 · 2024-07-06T03:57:09Z

该文章介绍了一个新的任务和基准,用于评估文本到图像生成模型在现实生活中产生符合常识的图像的能力。作者评测了各种最先进的模型,并发现图像合成与真实生活照片之间仍存在很大差距。作者的目标是将常识 - T2I 作为高质量评估基准,促进实际生活图像生成的进展。

PhyBench:用于评估文本到图像模型的物理常识基准

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-17T00:00:00Z

利用大型语言模型 (LLM) 从文本提示中提取关键组件,包括前景对象的边界框坐标、各个对象的详细文本描述和简洁的背景上下文。通过两个阶段的操作,将这些组件布局到图像生成模型中。经由用户研究验证了方法在从错综复杂的文本输入中生成连贯详细场景方面的功效。

大语言模型驱动的文本到图像生成的实证研究与分析

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-05-21T00:00:00Z

生成性人工智能(GenAI)在各领域引起关注,确保生成内容负责任是重要的。调查研究了文本和图像生成模型的负责任要求,包括生成真实内容、避免有害内容、拒绝有害指令、泄露训练数据相关内容和确保生成内容可识别。讨论了医疗保健、教育、金融和人工智能领域中负责任的GenAI的重要性。提供见解,造福于建设负责任的GenAI社区。

研究中生成 AI 的负责任使用的大学框架

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-04-30T00:00:00Z

Adobe推出新版Photoshop应用,集成了Adobe Firefly Image 3图像生成模型,可创建质量更高、种类更多和细节更丰富的图像。新功能包括参考图像、纯文本生成图像、创建背景、生成相似图像和细节支持微调图像。新版还包含AI图像编辑功能。Adobe提供Firefly Image 3的测试版。

Adobe推出新版Photoshop 集成Firefly Image 3图像生成AI模型

蓝点网
蓝点网 · 2024-04-24T01:23:57Z

Context Diffusion是一种基于扩散的框架,用于学习图像生成模型。该框架能够处理无提示情况下生成图像质量和保真度降低的问题,并适用于少量示例的情况。实验证明,Context Diffusion在领域内和领域外的任务中表现出色,提高了图像质量和保真度。

通过潜在扩散模型探索上下文分割

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-03-14T00:00:00Z

我们提出了一种新方法,利用大语言模型和图像生成模型创建合成图像-文本对,用于高效训练视觉语言模型。通过预训练文本到图像模型,我们的方法能够用合成数据训练出只需少量人工标注数据的视觉语言模型,并在图像字幕任务中表现出相当性能。这项研究提升了视觉语言模型的性能,拓展了其在各个领域中的适用性,并改善了数据效率和资源利用。

Synth$^2$: 用合成标题和图像嵌入提升视觉 - 语言模型

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-03-12T00:00:00Z

通过HDiT,提出了一种支持高分辨率训练的图像生成模型,具有线性扩展特点。成功在ImageNet和FFHQ上进行训练,创造了扩散模型的最新技术水平。

PixArt-Σ: 4K 文字到图像生成的强弱训练扩散变压器

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-03-07T00:00:00Z

Context Diffusion是一种基于扩散的框架,用于学习图像生成模型。该框架能够处理生成图像质量和保真度降低的问题,并适用于少量示例的情况。实验证明,Context Diffusion在领域内和领域外的任务中表现出色,提高了图像质量和保真度。

跨模态语境扩散模型的文本导向视觉生成与编辑

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-02-26T00:00:00Z
Stability AI推出新图像生成AI模型,力求保持领先地位

Stability AI推出了新的图像生成模型Stable Cascade,比其前身Stable Diffusion更快更强大。该模型可以生成照片并提供多个变体,也可以提高现有图片的分辨率。其他功能包括修补和外扩,用户可以通过使用现有图片的边缘创建新的照片。Stable Cascade是基于Würstchen架构的三个不同模型,将请求分解为较小的部分可以减少内存需求和训练时间,并且在“提示对齐和美学质量”方面表现更好。创建一张图片只需10秒,而目前使用的SDXL模型需要22秒。

Stability AI推出新图像生成AI模型,力求保持领先地位

The Verge
The Verge · 2024-02-14T23:13:48Z

通过分析378个伦理问题的19个主题领域,综述了生成人工智能伦理问题的分类和排名。重点关注大型语言模型和图像生成模型,提供了关于公平性、安全性、有害内容、幻觉、隐私、交互风险、社会影响等伦理争论的全面概述。同时讨论了结果、评估了文献中的不平衡现象,并探讨了未经证实的风险场景。

生成式人工智能伦理的映射:一项全面的范围审查

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-02-13T00:00:00Z

利用大型语言模型 (LLM) 从文本提示中提取关键组件,包括前景对象的边界框坐标、各个对象的详细文本描述和简洁的背景上下文。通过两个阶段的操作,将这些组件布局到图像生成模型中。生成的全局场景经过迭代细化,以确保与文本描述的一致性。经用户研究验证,我们的方法在从错综复杂的文本输入中生成连贯详细场景方面比传统扩散模型更好。

掌握文本到图像扩散:多模态 LLM 的重新字幕、规划和生成

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-01-22T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码