小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

腾讯混元团队推出的PromptEnhancer框架,通过思维链提示重写,提升AI绘画文本-图像对齐精度,准确率提高17%。该框架无需修改模型权重,适用于多种T2I模型,助力研究人员优化提示技术,并开源高质量基准测试数据集,推动AI绘画的可控性与创作效率。

腾讯混元开源AI绘画新框架:24维度对齐人类意图,让AI读懂复杂指令

量子位
量子位 · 2025-09-17T02:02:07Z

本研究提出了一种学习“黄金噪声”的框架,以改善文本与图像的对齐。通过对随机高斯噪声的小幅调整,形成“噪声提示”,并构建了相应的学习框架和数据集。实验结果表明,该框架显著提升了合成图像的质量,具有高效性和通用性。

Golden Noise in Diffusion Models: A Learning Framework

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-14T00:00:00Z

本文探讨了基于扩散模型的文本到图像生成技术,提出了多种创新方法以提高生成图像的质量和准确性,包括结合语言结构与扩散过程、引入新目标函数和迭代反馈学习。这些方法显著改善了图像的真实性和文本-图像对齐性,推动了该领域的发展。

扩散优于自回归:对文本到图像模型中组合生成的评估

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-30T00:00:00Z

本文介绍了SyncDiffusion方法,通过感知相似性损失实现多重扩散,生成协调的全景图。研究提出了一种基于文本和视觉条件的图像合成方法,解决了文本到图像合成中的低级视觉保留问题,并通过布局感知模型和空间依赖解析器提升了复杂场景生成的准确性。此外,研究还提出了个性化的360度全景定制方法,展示了在图像真实性和文本-图像对齐性方面的优越性能。

合并和分割扩散路径以实现语义一致的全景图

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-28T00:00:00Z

本研究探讨了扩散模型在文本到图像合成中的应用,提出通过自动生成描述来改善文本与图像的对齐。研究表明,该方法在多个数据集上提升了模型性能,优化了文本与图像的一致性,并增强了多概念输入图像的处理能力,验证了其有效性。

CoMat: 文本到图像扩散模型与图像到文本概念匹配的对齐

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-04-04T00:00:00Z

扩散模型是一种生成模型,能够合成文本到图像,提高文本图像对齐和知觉性能。该方法在ADE20K和NYUv2数据集上改进了语义分割和深度估计模型。适用于跨领域环境,通过个性化和标题修改改善非对齐基准的性能。目标检测模型在Pascal VOC数据集上训练,实现了Watercolor2K数据集上的最佳结果。分割方法在Cityscapes数据集上训练,实现了Dark Zurich-val和Nighttime Driving数据集上的最佳结果。

文本 - 图像扩散与偏好的密集奖励观点对齐

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-02-13T00:00:00Z

本研究提出了一种策略来克服大规模自然-医学分布偏移,并使用预先训练的潜在扩散模型在公开可用的胸部X射线(CXR)及其对应的放射学(文本)报告语料库上进行调整,评估了生成的高保真CXR的图像质量和文本-图像对齐的能力,并观察到使用数据增强的方式训练动态成像分类器的证据。

关于从偏见和合成 CXR 图像的准确性角度看幻觉的观念

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-12-12T00:00:00Z

扩散模型是一种生成模型,可用于改善视觉任务,提高文本图像对齐和模型的交叉注意力图,从而提高知觉性能。该方法在ADE20K和NYUv2数据集上改进了语义分割和深度估计模型,并适用于跨领域环境。目标检测模型在Pascal VOC数据集上训练,实现了Watercolor2K数据集上的最佳结果。分割方法在Cityscapes数据集上训练,实现了Dark Zurich-val和Nighttime Driving数据集上的最佳结果。

CONFORM:高保真文本到图像扩散模型所需的全部是对比度

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-12-11T00:00:00Z

扩散模型是一种生成模型,具有文本到图像合成能力,可提高文本图像对齐和模型的交叉注意力图,从而提高知觉性能。该方法在ADE20K和NYUv2数据集上改进了语义分割和深度估计模型,适用于跨领域环境,并可通过模型个性化和标题修改来改善非对齐基准的性能。在Pascal VOC数据集上训练的目标检测模型在Watercolor2K数据集上取得了最佳结果,而分割方法在Cityscapes数据集上训练,在Dark Zurich-val和Nighttime Driving数据集上取得了最佳结果。

SPiC-E:利用跨实体注意力的 3D 扩散模型中的结构先验

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-11-29T00:00:00Z

研究发现,扩散模型生成的描述可以提高文本图像对齐和模型的交叉注意力图,从而提高知觉性能。该方法在ADE20K和NYUv2数据集上改进了语义分割和深度估计模型,并适用于跨领域环境。此外,该方法还在Pascal VOC和Cityscapes数据集上实现了最佳结果。

引导注意力的可解释运动字幕

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-10-11T00:00:00Z

本研究发现扩散模型生成的描述可以提高文本图像对齐和模型交叉注意力图,从而提高知觉性能。该方法在ADE20K和NYUv2数据集上改进了语义分割和深度估计模型。同时,该方法适用于跨领域环境,可以通过模型个性化和标题修改来改善非对齐基准的性能。在Pascal VOC和Cityscapes数据集上训练的目标检测和分割方法实现了最佳结果。

将文本到图像扩散模型与奖励反向传播对齐

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-10-05T00:00:00Z
Diffusion——RLHF

本文总结了两篇使用RLHF微调diffusion的论文。第一篇论文介绍了DDPO方法,通过多步决策问题进行去噪,并使用策略梯度算法进行优化。实验结果显示,DDPO优于RWR。第二篇论文提出了DPOK方法,将策略优化与KL正则化相结合,通过在线强化学习微调文本到图像的模型。实验结果显示,DPOK能够实现文本-图像对齐并保持高图像保真度。

Diffusion——RLHF

Enderfga's blog
Enderfga's blog · 2023-05-31T08:20:07Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码