小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
Yandex 发布 Alchemist:用于提升文本转图像 T2I 模型质量的增强型监督微调数据集

Yandex 发布了 Alchemist,一个包含 3,350 个图像-文本对的公开 SFT 数据集,旨在提升文本到图像生成模型的输出质量。该数据集通过预训练的扩散模型筛选样本,注重高质量而非数量。评估结果显示,使用 Alchemist 微调的模型在美学和复杂度上显著提升,同时保持文本-图像相关性稳定。这一方法为生成视觉模型设定了新标准和资源。

Yandex 发布 Alchemist:用于提升文本转图像 T2I 模型质量的增强型监督微调数据集

实时互动网
实时互动网 · 2025-06-10T02:09:56Z

港中文MMLab团队发布了首个基于强化学习的文生图模型T2I-R1,采用双层级CoT推理框架,提升了图像生成的准确性和质量,增强了文本与图像的理解。该模型在多个基准测试中表现优异,显示出推理在图像生成中的有效性,未来有望应用于视频生成等领域。

文生图进入R1时代:港中文发布T2I-R1,让AI绘画“先推理再下笔”

量子位
量子位 · 2025-05-14T08:38:33Z

机器之心数据服务现已上线,提供高效稳定的数据获取,简化数据爬取流程。

文生图进入R1时刻:港中文MMLab发布T2I-R1

机器之心
机器之心 · 2025-05-09T03:03:21Z

本研究提出了Science-T2I数据集,解决了图像合成中科学知识整合不足的问题。研发的SciScore模型显著提升了生成图像的科学性和视觉效果,评估性能接近人类水平,推动了图像合成标准的建立。

科学影像合成中的科学幻觉:Science-T2I 的解决方案

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-17T00:00:00Z

本研究提出了一种新的保留度量和有效的遗忘算法,以解决文本到图像扩散模型在遗忘特定训练数据时对模型完整性的影响,优于现有方法。

在进行模型遗忘时保持模型完整性的T2I扩散模型

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-04T00:00:00Z

近年来,文本到图像(T2I)模型取得显著进展,但也带来了滥用风险。MMA-Diffusion框架能够有效绕过现有防御,揭示其弱点,构成安全威胁。

猫鼠游戏:扩散模型与检测方法之间的持续军备竞赛

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-24T00:00:00Z

Text-to-image generative models have become a prominent and powerful tool that excels at generating high-resolution realistic images. However, guiding the generative process of these models to...

CTRLorALTer: Conditional LoRAdapter for Efficient Zero-Shot Control & Altering of T2I Models

Apple Machine Learning Research
Apple Machine Learning Research · 2024-09-06T00:00:00Z

我们提出了一个新的任务和基准,用于评估文本到图像生成模型在现实生活中产生符合常识的图像的能力。我们评估模型是否能进行视觉常识推理,即生成与文本提示相符的图像。我们发现图像合成与真实生活照片之间仍存在差距。我们的目标是将此作为常识检查的高质量评估基准,促进实际生活图像生成的进展。

常识 T2I 挑战:文本到图像生成模型能否理解常识?

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-11T00:00:00Z

该研究提出了一种无需 LoRA 的方法,用于风格化图像生成。通过使用文本提示和风格参考图像作为输入,以单次传递生成输出图像。作者提出了 StyleAdapter,该模型由双路径交叉注意力模块(TPCA)和三个解耦策略组成,能够处理提示和风格参考特征,并减少语义和风格信息之间的强耦合。实验证明了该方法的优越性。

CTRLorALTer: 条件化的 LoRAdapter 用于高效的零样本控制和修改 T2I 模型

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-05-13T00:00:00Z

研究了现代文本到图像 (T2I) 扩散模型,分析了超参数和图像修改的可辨认性,调查了图像归属所依赖的视觉痕迹。发现伪造图像在各个层面上都是可检测且可归属的。

在 RGB 及更多领域的文本到图像扩散模型中检测图像归属

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-03-28T00:00:00Z

最近的研究发现,个性化文本到图像(T2I)扩散模型在生成高保真度图像方面存在困难。研究人员提出了一种名为ComFusion的新方法,能够将视觉主题实例与文本特定场景融合,生成高保真度的实例。ComFusion使用预训练模型和场景特定知识来提高生成的保真度,并确保图像与实例和场景文本对齐。对T2I个性化中的各种基线进行了评估,证明了ComFusion的优越性。

ComFusion: 多个特定场景中的个性化主题生成 单图像

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-02-19T00:00:00Z

该文章介绍了大规模文本-图像扩散模型的突破性发展,可以生成令人信服的图像,并让用户具有控制能力。该技术应用前景广阔。

IterInv:逐步反演像素级 T2I 模型

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-10-30T00:00:00Z

本研究通过与DALLE3集成的T2I模型ChatGPT重新审视现有的T2I系统,并引入新的任务——交互式文本到图像(iT2I)。我们提出了一种简单的方法来增强LLMs在iT2I上的能力,并在不同的LLMs下在多种常见场景中评估了我们的方法。

DiagrammerGPT:通过 LLM 规划生成开放领域、开放平台的图表

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-10-18T00:00:00Z

本研究通过与DALLE3集成的T2I模型ChatGPT重新审视现有的T2I系统,并引入新的任务——交互式文本到图像(iT2I)。我们提出了一种简单的方法来增强LLMs在iT2I上的能力,并在不同的LLMs下在多种常见场景中评估了我们的方法。

Idea2Img:基于 GPT-4V(ision)的迭代自我优化的自动图像设计与生成

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-10-12T00:00:00Z

该研究提出了一种低成本的自然多概念文本到图像生成解决方案,通过微调预训练文本到图像扩散模型中的文本嵌入,应用交叉令牌非极大值抑制来避免不同概念之间的特征混合,优于以前的方法。

多概念 T2I-Zero:仅调整文本嵌入,不涉及其他部分

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-10-11T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码