小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
DiT-Air:重新审视文本到图像生成中扩散模型架构设计的效率

本文研究了扩散变换器(DiTs)在文本到图像生成中的效率,分析了架构选择和训练策略。结果表明,标准DiT在性能上与专门模型相当,但参数效率更高。通过层级参数共享策略,DiT-Air和DiT-Air-Lite在保持竞争力的同时,模型尺寸减少了66%。DiT-Air在GenEval和T2I CompBench上表现优异。

DiT-Air:重新审视文本到图像生成中扩散模型架构设计的效率

Apple Machine Learning Research
Apple Machine Learning Research · 2025-12-11T00:00:00Z

本研究提出了一种互联网增强文本到图像生成(IA-T2I)框架,旨在改善现有模型在处理不确定知识文本提示时的不足。该框架通过参考图像和主动检索等机制,提高了生成图像的准确性和相关性,实验结果显示其性能优于现有模型,特别是在不确定知识处理上提升了约30%。

Internet-Augmented Text-to-Image Generation

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-21T00:00:00Z

本研究探讨了文本到图像生成模型在文化适应性方面的不足,特别是对俄罗斯文化的理解。提出了一种基于文化代码的数据集处理方法,实验证明该方法能有效提高模型对俄罗斯文化的认知,改善生成质量。

CRAFT: A Cultural Russian-Oriented Dataset Adaptation for Focused Text-to-Image Generation

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-07T00:00:00Z

本研究提出了T2I-R1模型,解决了文本到图像生成中的推理策略不足问题。通过双层思维链推理和强化学习,该模型在T2I-CompBench和WISE基准上分别提升了13%和19%的表现,超越了现有最先进模型FLUX。

T2I-R1: Reinforcing Image Generation through Collaborative Semantic-level and Token-level Chains of Thought

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-01T00:00:00Z

本研究提出RusCode基准,旨在解决文本到图像生成模型对非英语文化的偏见。通过评估19个类别的俄罗斯视觉文化要素,提升生成质量并促进对不同文化的理解。

RusCode: Russian Cultural Code Benchmark for Text-to-Image Generation

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-11T00:00:00Z

本研究介绍了Janus-Pro模型,旨在缩小多模态理解与文本到图像生成之间的能力差距。通过优化训练策略、扩大训练数据和模型规模,Janus-Pro在多模态理解和指令跟随能力上取得显著进展,增强了文本到图像生成的稳定性。

Janus-Pro: Unified Multimodal Understanding and Generation through Data and Model Scaling

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-29T00:00:00Z

本研究提出了一种名为“单提示单故事”的无训练方法,旨在解决文本到图像生成模型在故事讲述中的一致性不足问题。通过将所有提示合并为单一输入并采用新技术,显著提高了生成图像与输入描述的一致性。实验结果表明,该方法优于现有生成技术。

单提示单故事:基于单一提示的免费午餐一致性文本到图像生成

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-23T00:00:00Z

该研究提出了一种高效通用的解决方案,解决了文本到图像生成中相机控制不精确的问题。通过四个相机参数,研究展示了一个包含57,000多幅图像及其文本提示和相机参数的新数据集,并证明了该方法在生成图像时实现了更精准的相机控制。

PreciseCam: Precise Camera Control for Text-to-Image Generation

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-22T00:00:00Z

本研究提出了一种新方法来优化面部图像化妆技术,构建了包含400万个高质量面部图像-文本对的数据集。Face-MakeUp模型在生成一致性和性能方面表现优异,对文本到图像生成领域具有重要影响。

面部化妆:用于文本到图像生成的多模态面部提示

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-05T00:00:00Z

本研究提出了一种自我提升框架SILMM,旨在解决大型多模态模型在文本到图像生成中的对齐准确性问题。通过直接偏好优化,SILMM实现了模型的自我反馈与优化,实验结果表明其性能提升超过30%。

SILMM: Self-Improving Large Multimodal Models for Compositional Text-to-Image Generation

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-08T00:00:00Z

本研究提出了T2I-FactualBench,这是一个针对文本到图像生成模型的事实性评估基准,重点关注知识密集概念。实验结果表明,现有模型在该领域仍有显著改进空间。

T2I-FactualBench: A Benchmark for the Factuality of Text-to-Image Models Based on Knowledge-Intensive Concepts

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-05T00:00:00Z

本研究提出了BodyMetric,一种可学习的指标,用于评估文本到图像生成中人体的真实感。该方法结合3D身体表示和文本描述,有效预测图像中人体的真实感,减少了对人工评估的依赖。

BodyMetric: Evaluating the Realism of Human Bodies in Text-to-Image Generation

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-05T00:00:00Z

本研究提出了一种基于监督对比学习的图像合成框架,旨在解决文本到图像生成中的内模态语义对应问题。通过共享对比分支,该框架有效聚类语义相似的图像-文本对,从而提升生成质量。实验结果表明,在COCO数据集上,FID指标显著提高,验证了方法的有效性。

A Framework for Image Synthesis Based on Supervised Contrastive Learning

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-05T00:00:00Z

本研究提出了一种新方法来评估大规模多模态模型(LMMs),重点关注文本到图像生成。结果表明,许多在现有基准测试中表现良好的LMMs在基本图像理解和描述任务上存在不足,显示出其性能改进的潜力。

MMGenBench: Evaluating the Limits of Large-scale Multimodal Models from the Perspective of Text-to-Image Generation

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-21T00:00:00Z

本文研究文本到图像生成模型在生成人类图像时的伪影问题,尤其是身体异常。通过创建大型人类伪影数据集(HAD)并训练检测模型(HADM),研究表明该模型能够有效识别和定位伪影,从而提高图像质量。

Detecting Human Artifacts from Text-to-Image Models

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-21T00:00:00Z

本文探讨了基于扩散模型的文本到图像生成技术,提出了多种创新方法以提高生成图像的质量和准确性,包括结合语言结构与扩散过程、引入新目标函数和迭代反馈学习。这些方法显著改善了图像的真实性和文本-图像对齐性,推动了该领域的发展。

扩散优于自回归:对文本到图像模型中组合生成的评估

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-30T00:00:00Z

本研究提出了Diff-Instruct*模型,旨在解决文本到图像生成模型与人类偏好之间的对齐问题。通过在线强化学习和散度正则化方法,该模型显著提升了生成图像的真实感和美观度,并在多个基准测试中超越了先前的领先模型。

Diff-Instruct*: Towards Human-Preferred One-Step Text-to-Image Generative Models

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-28T00:00:00Z

本研究首次探讨了一步文本到图像生成模型与人类偏好的对齐问题。提出的新方法Diff-Instruct++通过强化学习和人类反馈,展示了在生成图像美学评分和多个指标上超越其他模型的潜力,具有重要的研究意义。

Diff-Instruct++:训练一步文本到图像生成模型以符合人类偏好

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-24T00:00:00Z

本研究提出了文本到图像生成技术的内容管理框架,强调安全、公平和量化危害的重要性。通过分析隐式对抗提示,识别T2I模型的安全问题,并开发了AEGISSAFETYDATASET和AEGIS方法来评估模型的安全性能。此外,研究揭示了AI生成文本中的社会偏见,推动了AI伦理学的发展。

多模态安全感知中的分歧模式洞察:来自多样化评估组的研究

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-22T00:00:00Z

该研究介绍了多种文本到图像生成模型,如Parti、Muse、SEED和LaVIT,强调了大型语言模型在图像生成中的应用与进展。研究表明,随着模型规模和数据量的增加,视觉特征性能得到提升,并提出了新的图像标记器以提高生成效率和质量,展示了自回归模型在图像生成中的潜力。

Fluid:利用连续令牌扩展自回归文本到图像生成模型

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-17T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码