小红花·文摘

Yandex 发布 Alchemist：用于提升文本转图像 T2I 模型质量的增强型监督微调数据集

实时互动网 ·

港中文MMLab团队发布了首个基于强化学习的文生图模型T2I-R1，采用双层级CoT推理框架，提升了图像生成的准确性和质量，增强了文本与图像的理解。该模型在多个基准测试中表现优异，显示出推理在图像生成中的有效性，未来有望应用于视频生成等领域。

文生图进入R1时代：港中文发布T2I-R1，让AI绘画“先推理再下笔”

量子位 ·

机器之心数据服务现已上线，提供高效稳定的数据获取，简化数据爬取流程。

文生图进入R1时刻：港中文MMLab发布T2I-R1

机器之心 ·

本研究提出了Science-T2I数据集，解决了图像合成中科学知识整合不足的问题。研发的SciScore模型显著提升了生成图像的科学性和视觉效果，评估性能接近人类水平，推动了图像合成标准的建立。

科学影像合成中的科学幻觉：Science-T2I 的解决方案

BriefGPT - AI 论文速递 ·

本研究提出了一种新的保留度量和有效的遗忘算法，以解决文本到图像扩散模型在遗忘特定训练数据时对模型完整性的影响，优于现有方法。

在进行模型遗忘时保持模型完整性的T2I扩散模型

BriefGPT - AI 论文速递 ·

CTRLorALTer：用于高效零-shot控制与T2I模型调整的条件LoRAdapter

Apple Machine Learning Research ·

本文介绍了一个新的多任务基准，用于评估文本到图像模型，并比较了开源与商业模型的表现。研究探讨了多模态信息如何提升文本生成模型的能力，并提出了交互式文本到图像生成的新任务。实验结果显示，现有模型在常识推理生成方面与人类表现存在显著差距，并且存在社会偏见问题。研究旨在提升人机交互体验和图像质量。

常识 T2I 挑战：文本到图像生成模型能否理解常识？

BriefGPT - AI 论文速递 ·

该研究提出了一种无需 LoRA 的风格化图像生成方法，通过文本提示和风格参考图像生成高质量图像。为提高生成内容的可控性和保真度，作者引入了 StyleAdapter 模型，采用双路径交叉注意力模块和解耦策略，增强了生成的灵活性和效率。实验结果验证了该方法的优越性。

CTRLorALTer: 条件化的 LoRAdapter 用于高效的零样本控制和修改 T2I 模型

BriefGPT - AI 论文速递 ·

最近的研究发现，个性化文本到图像（T2I）扩散模型在生成高保真度图像方面存在困难。研究人员提出了一种名为ComFusion的新方法，能够将视觉主题实例与文本特定场景融合，生成高保真度的实例。ComFusion使用预训练模型和场景特定知识来提高生成的保真度，并确保图像与实例和场景文本对齐。对T2I个性化中的各种基线进行了评估，证明了ComFusion的优越性。