小红花·文摘

DiT-Air：重新审视文本到图像生成中扩散模型架构设计的效率

Apple Machine Learning Research ·

本研究提出了一种互联网增强文本到图像生成(IA-T2I)框架，旨在改善现有模型在处理不确定知识文本提示时的不足。该框架通过参考图像和主动检索等机制，提高了生成图像的准确性和相关性，实验结果显示其性能优于现有模型，特别是在不确定知识处理上提升了约30%。

Internet-Augmented Text-to-Image Generation

BriefGPT - AI 论文速递 ·

本研究探讨了文本到图像生成模型在文化适应性方面的不足，特别是对俄罗斯文化的理解。提出了一种基于文化代码的数据集处理方法，实验证明该方法能有效提高模型对俄罗斯文化的认知，改善生成质量。

CRAFT: A Cultural Russian-Oriented Dataset Adaptation for Focused Text-to-Image Generation

BriefGPT - AI 论文速递 ·

本研究提出了T2I-R1模型，解决了文本到图像生成中的推理策略不足问题。通过双层思维链推理和强化学习，该模型在T2I-CompBench和WISE基准上分别提升了13%和19%的表现，超越了现有最先进模型FLUX。

T2I-R1: Reinforcing Image Generation through Collaborative Semantic-level and Token-level Chains of Thought

BriefGPT - AI 论文速递 ·

本研究提出RusCode基准，旨在解决文本到图像生成模型对非英语文化的偏见。通过评估19个类别的俄罗斯视觉文化要素，提升生成质量并促进对不同文化的理解。

RusCode: Russian Cultural Code Benchmark for Text-to-Image Generation

BriefGPT - AI 论文速递 ·

本研究介绍了Janus-Pro模型，旨在缩小多模态理解与文本到图像生成之间的能力差距。通过优化训练策略、扩大训练数据和模型规模，Janus-Pro在多模态理解和指令跟随能力上取得显著进展，增强了文本到图像生成的稳定性。

Janus-Pro: Unified Multimodal Understanding and Generation through Data and Model Scaling

BriefGPT - AI 论文速递 ·

本研究提出了一种名为“单提示单故事”的无训练方法，旨在解决文本到图像生成模型在故事讲述中的一致性不足问题。通过将所有提示合并为单一输入并采用新技术，显著提高了生成图像与输入描述的一致性。实验结果表明，该方法优于现有生成技术。

单提示单故事：基于单一提示的免费午餐一致性文本到图像生成

BriefGPT - AI 论文速递 ·

该研究提出了一种高效通用的解决方案，解决了文本到图像生成中相机控制不精确的问题。通过四个相机参数，研究展示了一个包含57,000多幅图像及其文本提示和相机参数的新数据集，并证明了该方法在生成图像时实现了更精准的相机控制。

PreciseCam: Precise Camera Control for Text-to-Image Generation

BriefGPT - AI 论文速递 ·

本研究提出了一种新方法来优化面部图像化妆技术，构建了包含400万个高质量面部图像-文本对的数据集。Face-MakeUp模型在生成一致性和性能方面表现优异，对文本到图像生成领域具有重要影响。

面部化妆：用于文本到图像生成的多模态面部提示

BriefGPT - AI 论文速递 ·

本研究提出了一种自我提升框架SILMM，旨在解决大型多模态模型在文本到图像生成中的对齐准确性问题。通过直接偏好优化，SILMM实现了模型的自我反馈与优化，实验结果表明其性能提升超过30%。

SILMM: Self-Improving Large Multimodal Models for Compositional Text-to-Image Generation

BriefGPT - AI 论文速递 ·

本研究提出了T2I-FactualBench，这是一个针对文本到图像生成模型的事实性评估基准，重点关注知识密集概念。实验结果表明，现有模型在该领域仍有显著改进空间。

T2I-FactualBench: A Benchmark for the Factuality of Text-to-Image Models Based on Knowledge-Intensive Concepts

BriefGPT - AI 论文速递 ·

本研究提出了BodyMetric，一种可学习的指标，用于评估文本到图像生成中人体的真实感。该方法结合3D身体表示和文本描述，有效预测图像中人体的真实感，减少了对人工评估的依赖。

BodyMetric: Evaluating the Realism of Human Bodies in Text-to-Image Generation

BriefGPT - AI 论文速递 ·

本研究提出了一种基于监督对比学习的图像合成框架，旨在解决文本到图像生成中的内模态语义对应问题。通过共享对比分支，该框架有效聚类语义相似的图像-文本对，从而提升生成质量。实验结果表明，在COCO数据集上，FID指标显著提高，验证了方法的有效性。

A Framework for Image Synthesis Based on Supervised Contrastive Learning

BriefGPT - AI 论文速递 ·

本研究提出了一种新方法来评估大规模多模态模型（LMMs），重点关注文本到图像生成。结果表明，许多在现有基准测试中表现良好的LMMs在基本图像理解和描述任务上存在不足，显示出其性能改进的潜力。

MMGenBench: Evaluating the Limits of Large-scale Multimodal Models from the Perspective of Text-to-Image Generation

BriefGPT - AI 论文速递 ·

本文研究文本到图像生成模型在生成人类图像时的伪影问题，尤其是身体异常。通过创建大型人类伪影数据集（HAD）并训练检测模型（HADM），研究表明该模型能够有效识别和定位伪影，从而提高图像质量。

Detecting Human Artifacts from Text-to-Image Models

BriefGPT - AI 论文速递 ·

本文探讨了基于扩散模型的文本到图像生成技术，提出了多种创新方法以提高生成图像的质量和准确性，包括结合语言结构与扩散过程、引入新目标函数和迭代反馈学习。这些方法显著改善了图像的真实性和文本-图像对齐性，推动了该领域的发展。

扩散优于自回归：对文本到图像模型中组合生成的评估

BriefGPT - AI 论文速递 ·

本研究提出了Diff-Instruct*模型，旨在解决文本到图像生成模型与人类偏好之间的对齐问题。通过在线强化学习和散度正则化方法，该模型显著提升了生成图像的真实感和美观度，并在多个基准测试中超越了先前的领先模型。

Diff-Instruct*: Towards Human-Preferred One-Step Text-to-Image Generative Models

BriefGPT - AI 论文速递 ·

本研究首次探讨了一步文本到图像生成模型与人类偏好的对齐问题。提出的新方法Diff-Instruct++通过强化学习和人类反馈，展示了在生成图像美学评分和多个指标上超越其他模型的潜力，具有重要的研究意义。

Diff-Instruct++：训练一步文本到图像生成模型以符合人类偏好

BriefGPT - AI 论文速递 ·

本研究提出了文本到图像生成技术的内容管理框架，强调安全、公平和量化危害的重要性。通过分析隐式对抗提示，识别T2I模型的安全问题，并开发了AEGISSAFETYDATASET和AEGIS方法来评估模型的安全性能。此外，研究揭示了AI生成文本中的社会偏见，推动了AI伦理学的发展。

多模态安全感知中的分歧模式洞察：来自多样化评估组的研究

BriefGPT - AI 论文速递 ·

该研究介绍了多种文本到图像生成模型，如Parti、Muse、SEED和LaVIT，强调了大型语言模型在图像生成中的应用与进展。研究表明，随着模型规模和数据量的增加，视觉特征性能得到提升，并提出了新的图像标记器以提高生成效率和质量，展示了自回归模型在图像生成中的潜力。

Fluid：利用连续令牌扩展自回归文本到图像生成模型

BriefGPT - AI 论文速递 ·