小红花·文摘

流匹配模型的得分蒸馏

Apple Machine Learning Research ·

出海建站指南：从收款到合规实战 | 开源日报 No.716

开源服务指南 ·

Yandex 发布 Alchemist：用于提升文本转图像 T2I 模型质量的增强型监督微调数据集

实时互动网 ·

ComfyMind是港科大与字节合作开发的开源视觉生成框架，支持文本到图像、视频等任务，性能接近GPT-4o。其模块化设计结合树状规划与局部反馈，显著提升生成质量与灵活性，适用于多种视觉创作需求。

效果媲美GPT-4o，一键搞定各类视觉生成任务丨港科广字节全新框架

量子位 ·

如何在RunC.AI上部署ComfyUI

DEV Community ·

Cjwbw在Replicate上发布的Animagine-Xl-3.1模型初学者指南

DEV Community ·

本研究提出了一种有效的超参数调优方法μP，应用于扩散变换器，显著提升了模型的收敛速度和扩展性，尤其在文本到图像生成任务中表现突出，同时降低了调优成本。

Efficiently Scaling Diffusion Transformers with μP

BriefGPT - AI 论文速递 ·

本研究探讨了文本到图像生成中的默认图像问题，分析了其对用户满意度的影响，并为未来研究提供了方向。

初步探索文本到图像生成中的默认图像

BriefGPT - AI 论文速递 ·

本研究提出了一种视觉引导解码方法，利用大型语言模型生成文本提示，以指导图像生成模型。该方法通过CLIP得分确保提示与用户视觉概念一致，提升了提示生成的可解释性和灵活性。实验结果表明，该方法在生成可理解且相关的提示方面优于现有技术，增强了文本到图像模型的互动可控性。

Visually Guided Decoding: Gradient-Free Hard Prompt Inversion with Language Models

BriefGPT - AI 论文速递 ·

本研究提出Flow-GRPO方法，首次将在线强化学习应用于流匹配模型，有效提升文本到图像任务的生成准确性和人类偏好对齐效果。

Flow-GRPO: Training Flow Matching Models through Online Reinforcement Learning

BriefGPT - AI 论文速递 ·

本研究指出视觉语言模型在抽象语言处理上的不足，提出了一种无训练的方法——抽象到具体翻译器（ACT），显著提升了文本到图像的检索性能。

看见抽象：为视觉语言模型翻译抽象语言

BriefGPT - AI 论文速递 ·

本研究分析了文本到图像模型（T2I）带来的非自愿深度伪造风险，自2022年11月以来，该模型下载量接近1500万次，96%针对女性，强调了加强监管的必要性。

On-Demand Deepfakes: The Rise of Easily Accessible Generators for Non-Consensual Deepfake Images

BriefGPT - AI 论文速递 ·

目前文本到图像生成模型在物体状态表示上存在困难。本文提出一种全自动流程生成高质量合成数据，以准确捕捉物体不同状态，并微调多个开源模型。研究表明，微调后模型在生成图像与提示文本的对齐度上平均提升超过8%。

Improving Object State Representation in Text-to-Image Generation

BriefGPT - AI 论文速递 ·

AI绘图工具如即梦3.0和OpenAI Sora正在革新视觉内容创作。本文介绍了如何使用这些工具进行文本到图像转换和风格调整，适合设计师和爱好者。用户可以免费体验，学习提示词编写和风格调整技巧，探索AI绘图的潜力。

立即掌握AI绘图艺术：即梦3.0与OpenAI Sora全方位教程

dotNET跨平台 ·

本研究提出了一种新型合成字幕生成技术，旨在解决大规模视觉-语言模型预训练中的数据稀缺问题。该技术能够生成高质量、低幻觉的合成字幕，显著提升模型在视觉语言任务中的表现，特别是在文本到图像领域。

Low-Hallucination Synthetic Captions for Large-Scale Vision-Language Model Pre-training

BriefGPT - AI 论文速递 ·

本研究针对文本到图像(T2I)模型生成不安全内容(NSFW)的问题，提出了一个包含大量提示和图像对的数据集，并开发了多模态防御机制，以降低对抗性攻击的成功率，提高NSFW检测的准确性和召回率。

Towards Safe Synthetic Image Generation: A Multimodal Robust NSFW Defense and Million Scale Dataset

BriefGPT - AI 论文速递 ·

本研究提出了一种自动反向提示优化（ARPO）方法，旨在解决文本到图像生成中的提示工程问题。ARPO通过迭代优化生成高质量提示，能够轻松创造多样的风格和内容的新图像。

反向提示：破解文本到图像生成中的难题

BriefGPT - AI 论文速递 ·

本研究提出了一种新方法，通过外部插件机制实现对文本到图像生成模型的多元责任控制，解决生成内容的伦理问题，确保内容的公平和安全，同时保持模型性能，显示出显著的有效性。

Plug-and-Play Interpretable Responsible Text-to-Image Generation Based on Dual-Space Multi-Facet Concept Control

BriefGPT - AI 论文速递 ·

本研究提出VerbDiff模型，旨在解决文本到图像扩散模型在生成交互图像时的偏见问题。该模型能够更好地捕捉语义，生成高质量图像，实验结果表明其在复杂交互处理上优于传统方法。

VerbDiff: A Text-Only Diffusion Model Enhancing Interaction Awareness

BriefGPT - AI 论文速递 ·

本研究提出了尺度蒸馏框架SwD，以提高扩散模型的计算效率。SwD通过低分辨率生成样本并逐步提升分辨率，显著降低了计算成本，实验结果表明其在文本到图像的扩散模型中优于对比方法。

基于尺度的扩散模型蒸馏

BriefGPT - AI 论文速递 ·