小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
DiT-Air:重新审视文本到图像生成中扩散模型架构设计的效率

本文研究了扩散变换器(DiTs)在文本到图像生成中的效率,分析了架构选择和训练策略。结果表明,标准DiT在性能上与专门模型相当,但参数效率更高。通过层级参数共享策略,DiT-Air和DiT-Air-Lite在保持竞争力的同时,模型尺寸减少了66%。DiT-Air在GenEval和T2I CompBench上表现优异。

DiT-Air:重新审视文本到图像生成中扩散模型架构设计的效率

Apple Machine Learning Research
Apple Machine Learning Research · 2025-12-11T00:00:00Z

本研究提出了一种互联网增强文本到图像生成(IA-T2I)框架,旨在改善现有模型在处理不确定知识文本提示时的不足。该框架通过参考图像和主动检索等机制,提高了生成图像的准确性和相关性,实验结果显示其性能优于现有模型,特别是在不确定知识处理上提升了约30%。

Internet-Augmented Text-to-Image Generation

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-21T00:00:00Z

本研究探讨了文本到图像生成模型在文化适应性方面的不足,特别是对俄罗斯文化的理解。提出了一种基于文化代码的数据集处理方法,实验证明该方法能有效提高模型对俄罗斯文化的认知,改善生成质量。

CRAFT: A Cultural Russian-Oriented Dataset Adaptation for Focused Text-to-Image Generation

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-07T00:00:00Z

本研究提出了T2I-R1模型,解决了文本到图像生成中的推理策略不足问题。通过双层思维链推理和强化学习,该模型在T2I-CompBench和WISE基准上分别提升了13%和19%的表现,超越了现有最先进模型FLUX。

T2I-R1: Reinforcing Image Generation through Collaborative Semantic-level and Token-level Chains of Thought

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-01T00:00:00Z

本研究提出RusCode基准,旨在解决文本到图像生成模型对非英语文化的偏见。通过评估19个类别的俄罗斯视觉文化要素,提升生成质量并促进对不同文化的理解。

RusCode: Russian Cultural Code Benchmark for Text-to-Image Generation

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-11T00:00:00Z

本研究介绍了Janus-Pro模型,旨在缩小多模态理解与文本到图像生成之间的能力差距。通过优化训练策略、扩大训练数据和模型规模,Janus-Pro在多模态理解和指令跟随能力上取得显著进展,增强了文本到图像生成的稳定性。

Janus-Pro: Unified Multimodal Understanding and Generation through Data and Model Scaling

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-29T00:00:00Z

本研究提出了一种名为“单提示单故事”的无训练方法,旨在解决文本到图像生成模型在故事讲述中的一致性不足问题。通过将所有提示合并为单一输入并采用新技术,显著提高了生成图像与输入描述的一致性。实验结果表明,该方法优于现有生成技术。

单提示单故事:基于单一提示的免费午餐一致性文本到图像生成

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-23T00:00:00Z

该研究提出了一种高效通用的解决方案,解决了文本到图像生成中相机控制不精确的问题。通过四个相机参数,研究展示了一个包含57,000多幅图像及其文本提示和相机参数的新数据集,并证明了该方法在生成图像时实现了更精准的相机控制。

PreciseCam: Precise Camera Control for Text-to-Image Generation

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-22T00:00:00Z

本研究提出了一种新方法来优化面部图像化妆技术,构建了包含400万个高质量面部图像-文本对的数据集。Face-MakeUp模型在生成一致性和性能方面表现优异,对文本到图像生成领域具有重要影响。

面部化妆:用于文本到图像生成的多模态面部提示

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-05T00:00:00Z

本研究提出了一种自我提升框架SILMM,旨在解决大型多模态模型在文本到图像生成中的对齐准确性问题。通过直接偏好优化,SILMM实现了模型的自我反馈与优化,实验结果表明其性能提升超过30%。

SILMM: Self-Improving Large Multimodal Models for Compositional Text-to-Image Generation

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-08T00:00:00Z

本研究提出了T2I-FactualBench,这是一个针对文本到图像生成模型的事实性评估基准,重点关注知识密集概念。实验结果表明,现有模型在该领域仍有显著改进空间。

T2I-FactualBench: A Benchmark for the Factuality of Text-to-Image Models Based on Knowledge-Intensive Concepts

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-05T00:00:00Z

本研究提出了BodyMetric,一种可学习的指标,用于评估文本到图像生成中人体的真实感。该方法结合3D身体表示和文本描述,有效预测图像中人体的真实感,减少了对人工评估的依赖。

BodyMetric: Evaluating the Realism of Human Bodies in Text-to-Image Generation

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-05T00:00:00Z

本研究提出了一种基于监督对比学习的图像合成框架,旨在解决文本到图像生成中的内模态语义对应问题。通过共享对比分支,该框架有效聚类语义相似的图像-文本对,从而提升生成质量。实验结果表明,在COCO数据集上,FID指标显著提高,验证了方法的有效性。

A Framework for Image Synthesis Based on Supervised Contrastive Learning

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-05T00:00:00Z

本研究提出了一种新方法来评估大规模多模态模型(LMMs),重点关注文本到图像生成。结果表明,许多在现有基准测试中表现良好的LMMs在基本图像理解和描述任务上存在不足,显示出其性能改进的潜力。

MMGenBench: Evaluating the Limits of Large-scale Multimodal Models from the Perspective of Text-to-Image Generation

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-21T00:00:00Z

本文研究文本到图像生成模型在生成人类图像时的伪影问题,尤其是身体异常。通过创建大型人类伪影数据集(HAD)并训练检测模型(HADM),研究表明该模型能够有效识别和定位伪影,从而提高图像质量。

Detecting Human Artifacts from Text-to-Image Models

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-21T00:00:00Z

本文探讨了基于扩散模型的文本到图像生成技术,提出了多种创新方法以提高生成图像的质量和准确性,包括结合语言结构与扩散过程、引入新目标函数和迭代反馈学习。这些方法显著改善了图像的真实性和文本-图像对齐性,推动了该领域的发展。

扩散优于自回归:对文本到图像模型中组合生成的评估

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-30T00:00:00Z

本研究提出了Diff-Instruct*模型,旨在解决文本到图像生成模型与人类偏好之间的对齐问题。通过在线强化学习和散度正则化方法,该模型显著提升了生成图像的真实感和美观度,并在多个基准测试中超越了先前的领先模型。

Diff-Instruct*: Towards Human-Preferred One-Step Text-to-Image Generative Models

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-28T00:00:00Z

本研究首次探讨了一步文本到图像生成模型与人类偏好的对齐问题。提出的新方法Diff-Instruct++通过强化学习和人类反馈,展示了在生成图像美学评分和多个指标上超越其他模型的潜力,具有重要的研究意义。

Diff-Instruct++:训练一步文本到图像生成模型以符合人类偏好

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-24T00:00:00Z

本研究提出了文本到图像生成技术的内容管理框架,强调安全、公平和量化危害的重要性。通过分析隐式对抗提示,识别T2I模型的安全问题,并开发了AEGISSAFETYDATASET和AEGIS方法来评估模型的安全性能。此外,研究揭示了AI生成文本中的社会偏见,推动了AI伦理学的发展。

多模态安全感知中的分歧模式洞察:来自多样化评估组的研究

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-22T00:00:00Z

该研究介绍了多种文本到图像生成模型,如Parti、Muse、SEED和LaVIT,强调了大型语言模型在图像生成中的应用与进展。研究表明,随着模型规模和数据量的增加,视觉特征性能得到提升,并提出了新的图像标记器以提高生成效率和质量,展示了自回归模型在图像生成中的潜力。

Fluid:利用连续令牌扩展自回归文本到图像生成模型

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-17T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码