小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
流匹配模型的得分蒸馏

本文探讨了流匹配模型的得分蒸馏方法,以提高图像生成效率。通过推导,统一了高斯扩散与流匹配,并将得分身份蒸馏(SiD)扩展至预训练的文本到图像流匹配模型。实验结果表明,SiD在不同模型中有效,无需教师微调或架构更改,首次系统性证明了得分蒸馏在文本到图像流匹配模型中的广泛适用性。

流匹配模型的得分蒸馏

Apple Machine Learning Research
Apple Machine Learning Research · 2025-12-16T00:00:00Z
出海建站指南:从收款到合规实战 | 开源日报 No.716

ffmpeg-kit 是一个跨平台的 FFmpeg 工具集,支持多种开发框架并提供预构建二进制包。overseas-website-note 分享海外网站开发经验,包括注册和支付流程。FastBee 是适合中小企业的开源物联网平台,支持多种应用场景。dialoqbase 简化聊天机器人创建,支持个性化知识库。IF 是开源文本到图像模型,具备高真实感和语言理解能力。

出海建站指南:从收款到合规实战 | 开源日报 No.716

开源服务指南
开源服务指南 · 2025-09-03T07:35:14Z
Yandex 发布 Alchemist:用于提升文本转图像 T2I 模型质量的增强型监督微调数据集

Yandex 发布了 Alchemist,一个包含 3,350 个图像-文本对的公开 SFT 数据集,旨在提升文本到图像生成模型的输出质量。该数据集通过预训练的扩散模型筛选样本,注重高质量而非数量。评估结果显示,使用 Alchemist 微调的模型在美学和复杂度上显著提升,同时保持文本-图像相关性稳定。这一方法为生成视觉模型设定了新标准和资源。

Yandex 发布 Alchemist:用于提升文本转图像 T2I 模型质量的增强型监督微调数据集

实时互动网
实时互动网 · 2025-06-10T02:09:56Z

ComfyMind是港科大与字节合作开发的开源视觉生成框架,支持文本到图像、视频等任务,性能接近GPT-4o。其模块化设计结合树状规划与局部反馈,显著提升生成质量与灵活性,适用于多种视觉创作需求。

效果媲美GPT-4o,一键搞定各类视觉生成任务丨港科广字节全新框架

量子位
量子位 · 2025-06-07T05:54:16Z
如何在RunC.AI上部署ComfyUI

本教程介绍如何在RunC上部署ComfyUI。用户需注册并进入控制台,选择GPU型号和系统镜像,逐步创建文本到图像的工作流程,包括添加采样器、模型、提示词和图像生成区域。整个过程简单易懂,适合新手,且响应速度快。

如何在RunC.AI上部署ComfyUI

DEV Community
DEV Community · 2025-05-30T06:13:50Z
Cjwbw在Replicate上发布的Animagine-Xl-3.1模型初学者指南

Animagine-Xl-3.1是由Cjwbw维护的动漫主题文本到图像的稳定扩散模型,专注于生成动漫风格图像。它接受文本描述、随机种子和图像尺寸等输入,输出符合要求的图像。

Cjwbw在Replicate上发布的Animagine-Xl-3.1模型初学者指南

DEV Community
DEV Community · 2025-05-25T02:13:41Z

本研究提出了一种有效的超参数调优方法μP,应用于扩散变换器,显著提升了模型的收敛速度和扩展性,尤其在文本到图像生成任务中表现突出,同时降低了调优成本。

Efficiently Scaling Diffusion Transformers with μP

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-21T00:00:00Z

本研究探讨了文本到图像生成中的默认图像问题,分析了其对用户满意度的影响,并为未来研究提供了方向。

初步探索文本到图像生成中的默认图像

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-14T00:00:00Z

本研究提出了一种视觉引导解码方法,利用大型语言模型生成文本提示,以指导图像生成模型。该方法通过CLIP得分确保提示与用户视觉概念一致,提升了提示生成的可解释性和灵活性。实验结果表明,该方法在生成可理解且相关的提示方面优于现有技术,增强了文本到图像模型的互动可控性。

Visually Guided Decoding: Gradient-Free Hard Prompt Inversion with Language Models

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-13T00:00:00Z

本研究提出Flow-GRPO方法,首次将在线强化学习应用于流匹配模型,有效提升文本到图像任务的生成准确性和人类偏好对齐效果。

Flow-GRPO: Training Flow Matching Models through Online Reinforcement Learning

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-08T00:00:00Z

本研究指出视觉语言模型在抽象语言处理上的不足,提出了一种无训练的方法——抽象到具体翻译器(ACT),显著提升了文本到图像的检索性能。

看见抽象:为视觉语言模型翻译抽象语言

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-06T00:00:00Z

本研究分析了文本到图像模型(T2I)带来的非自愿深度伪造风险,自2022年11月以来,该模型下载量接近1500万次,96%针对女性,强调了加强监管的必要性。

On-Demand Deepfakes: The Rise of Easily Accessible Generators for Non-Consensual Deepfake Images

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-06T00:00:00Z

目前文本到图像生成模型在物体状态表示上存在困难。本文提出一种全自动流程生成高质量合成数据,以准确捕捉物体不同状态,并微调多个开源模型。研究表明,微调后模型在生成图像与提示文本的对齐度上平均提升超过8%。

Improving Object State Representation in Text-to-Image Generation

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-04T00:00:00Z

AI绘图工具如即梦3.0和OpenAI Sora正在革新视觉内容创作。本文介绍了如何使用这些工具进行文本到图像转换和风格调整,适合设计师和爱好者。用户可以免费体验,学习提示词编写和风格调整技巧,探索AI绘图的潜力。

立即掌握AI绘图艺术:即梦3.0与OpenAI Sora全方位教程

dotNET跨平台
dotNET跨平台 · 2025-04-24T00:01:33Z

本研究提出了一种新型合成字幕生成技术,旨在解决大规模视觉-语言模型预训练中的数据稀缺问题。该技术能够生成高质量、低幻觉的合成字幕,显著提升模型在视觉语言任务中的表现,特别是在文本到图像领域。

Low-Hallucination Synthetic Captions for Large-Scale Vision-Language Model Pre-training

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-17T00:00:00Z

本研究针对文本到图像(T2I)模型生成不安全内容(NSFW)的问题,提出了一个包含大量提示和图像对的数据集,并开发了多模态防御机制,以降低对抗性攻击的成功率,提高NSFW检测的准确性和召回率。

Towards Safe Synthetic Image Generation: A Multimodal Robust NSFW Defense and Million Scale Dataset

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-16T00:00:00Z

本研究提出了一种自动反向提示优化(ARPO)方法,旨在解决文本到图像生成中的提示工程问题。ARPO通过迭代优化生成高质量提示,能够轻松创造多样的风格和内容的新图像。

反向提示:破解文本到图像生成中的难题

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-25T00:00:00Z

本研究提出了一种新方法,通过外部插件机制实现对文本到图像生成模型的多元责任控制,解决生成内容的伦理问题,确保内容的公平和安全,同时保持模型性能,显示出显著的有效性。

Plug-and-Play Interpretable Responsible Text-to-Image Generation Based on Dual-Space Multi-Facet Concept Control

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-24T00:00:00Z

本研究提出VerbDiff模型,旨在解决文本到图像扩散模型在生成交互图像时的偏见问题。该模型能够更好地捕捉语义,生成高质量图像,实验结果表明其在复杂交互处理上优于传统方法。

VerbDiff: A Text-Only Diffusion Model Enhancing Interaction Awareness

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-20T00:00:00Z

本研究提出了尺度蒸馏框架SwD,以提高扩散模型的计算效率。SwD通过低分辨率生成样本并逐步提升分辨率,显著降低了计算成本,实验结果表明其在文本到图像的扩散模型中优于对比方法。

基于尺度的扩散模型蒸馏

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-20T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码