小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
用于分类生成建模的连续增强离散扩散模型

本文介绍了连续增强离散扩散模型(CADD),该模型通过在连续潜在空间中增强离散状态空间,解决了传统离散扩散模型的信息缺失问题。CADD利用噪声潜在向量表示被遮蔽的标记,提升了文本生成、图像合成和代码建模的生成质量,并在多样性与上下文精确性之间实现了灵活控制。

用于分类生成建模的连续增强离散扩散模型

Apple Machine Learning Research
Apple Machine Learning Research · 2025-12-10T00:00:00Z
将自监督表示调整为高效生成的潜在空间

本文介绍了一种生成建模框架RepTok,该框架通过自监督视觉变换器获取单一连续潜在标记来表示图像。该方法在预训练的SSL编码器基础上微调语义标记嵌入,并与生成解码器联合训练。通过添加余弦相似度损失,保持潜在空间的平滑性。RepTok在ImageNet生成和文本到图像合成中表现出色,展示了微调SSL表示作为有效潜在空间的潜力。

将自监督表示调整为高效生成的潜在空间

Apple Machine Learning Research
Apple Machine Learning Research · 2025-11-04T00:00:00Z
STARFlow:扩展潜在归一化流以实现高分辨率图像合成

STARFlow是一种基于归一化流的生成模型,专注于高分辨率图像合成。其核心是Transformer自回归流(TARFlow),结合了归一化流的表达能力与自回归Transformer的结构建模能力。通过深浅设计、在预训练自编码器的潜在空间建模及新颖的引导算法,STARFlow显著提升了可扩展性和样本质量,接近最先进的扩散模型表现。

STARFlow:扩展潜在归一化流以实现高分辨率图像合成

Apple Machine Learning Research
Apple Machine Learning Research · 2025-06-30T00:00:00Z

本研究综合评估了生成性人工智能在角色动画中的应用,分析了面部动画、表情渲染和图像合成等技术,指出了当前面临的挑战,并为未来研究方向提供指导。

Generative AI in Character Animation: A Comprehensive Survey of Techniques, Applications, and Future Directions

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-27T00:00:00Z

本研究提出了Science-T2I数据集,解决了图像合成中科学知识整合不足的问题。研发的SciScore模型显著提升了生成图像的科学性和视觉效果,评估性能接近人类水平,推动了图像合成标准的建立。

科学影像合成中的科学幻觉:Science-T2I 的解决方案

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-17T00:00:00Z

本文提出了一种新型生成对抗网络CKGAN,基于特征核积分概率度量框架,旨在解决模式崩溃问题。CKGAN通过自动学习特征核函数,在合成和真实图像基准测试中表现优于其他GAN,接近手动调整的最佳性能。

CKGAN: Training Generative Adversarial Networks Using Characteristic Kernel Integral Probability Metrics

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-08T00:00:00Z

本研究提出了一种两阶段的差分隐私图像合成框架,通过引入“中心图像”有效学习简单特征,使合成图像的保真性和实用性分别提高了33.1%和2.1%。

From Simple to Complex: A Shortcut for Building Differentially Private Image Synthesis

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-02T00:00:00Z
TokenBridge:弥合可视化生成中连续和离散token表示法之间的差距

自回归视觉生成模型通过离散和连续token实现高质量图像合成。TokenBridge采用新颖的训练后量化技术,显著提升生成效果,且在参数更少的情况下优于传统模型,为未来视觉合成技术提供新思路。

TokenBridge:弥合可视化生成中连续和离散token表示法之间的差距

实时互动网
实时互动网 · 2025-03-28T02:12:01Z

本研究结合视觉提示与差分隐私神经切线核,提升了高分辨率图像合成数据的有效性,准确率从0.644提升至0.769,为差分隐私合成数据的应用开辟新路径。

VP-NTK: Exploring the Advantages of Visual Prompts in Differentially Private Data Synthesis

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-20T00:00:00Z

本研究提出DPImageBench,解决了差分隐私图像合成领域评价标准不一致的问题。通过评估十一种方法,发现上游分类器的选择会高估效用评分,且低维特征添加噪声的效果优于高维特征。

DPImageBench:差分隐私图像合成的统一基准

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-18T00:00:00Z

本研究提出了TaylorSeer方法,以解决扩散变换器的高计算需求问题。该方法通过泰勒级数近似特征高阶导数,显著提升了图像和视频合成的效率,尤其在高加速比下实现了近乎无损的加速效果。

From Reuse to Prediction: Accelerating Diffusion Models with TaylorSeer

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-10T00:00:00Z
分形人工智能以比传统模型少65%的参数生成图像和音频

这项研究介绍了一种新型深度学习架构——分形生成模型。该模型利用分形的自相似性原理,参数减少了65%,在图像和音频合成任务中表现更佳。

分形人工智能以比传统模型少65%的参数生成图像和音频

DEV Community
DEV Community · 2025-02-28T09:57:58Z

本研究提出MAETok方法,通过掩码建模探索扩散模型的潜在空间特性,从而提高图像合成任务的生成质量与效率。

Masked Autoencoders as Effective Tokens for Diffusion Models

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-05T00:00:00Z

本研究提出了一种无需调优的方法,解决物体插入和主体驱动生成中的高数据收集成本问题。通过利用无标签数据的共现现象,构建强大的配对数据集,训练高效的文本到图像扩散架构,提升物体身份保持和图像合成效果。

ObjectMate:一种针对物体插入和主体驱动生成的循环先验

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-11T00:00:00Z

本文介绍了多种生成模型的改进,包括Flow++、NC-VAE、DeFlow和重建生成扩散模型。研究表明,矫正流模型在高分辨率文本到图像合成中表现优越,解决了模型崩溃和图像重建问题,提升了生成质量和性能。

分析和改善修正流模型中的模型崩溃

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-11T00:00:00Z

本研究提出了一种新方法,将超声心动图转化为高质量的心脏MRI图像,有效解决了噪声和对比度不足的问题。经过Cycle-GAN训练后,78.9%的病例中医师更倾向于使用合成图像进行诊断。

Real-time Blind Reconstruction of Ultrasound Echocardiography to Cardiac MRI View Conversion

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-09T00:00:00Z

本研究提出了一种基于监督对比学习的图像合成框架,旨在解决文本到图像生成中的内模态语义对应问题。通过共享对比分支,该框架有效聚类语义相似的图像-文本对,从而提升生成质量。实验结果表明,在COCO数据集上,FID指标显著提高,验证了方法的有效性。

A Framework for Image Synthesis Based on Supervised Contrastive Learning

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-05T00:00:00Z
我在构建gleam.so时学到的10种高级OG图像技巧 🔍

本文介绍了10种提升OG图像生成的高级技巧,如动态字体缩放、智能图像合成和渐变文本效果。这些技巧能显著提高生成速度和质量,优化内存管理,确保图像符合质量标准。

我在构建gleam.so时学到的10种高级OG图像技巧 🔍

DEV Community
DEV Community · 2024-11-29T08:00:00Z
rebuttal真的有用!这篇ICLR论文,所有审稿人都加了2分,直接跃升排名第9

ICLR 2025 论文《SANA》提出了一种高效的高分辨率图像合成方法,支持1024×1024至4096×4096的分辨率。研究团队采用新型自动编码器和线性注意力模块,显著提升了生成速度和质量。经过审稿人反馈,作者详细解释了创新点,最终获得更高评分,体现了积极互动的重要性。

rebuttal真的有用!这篇ICLR论文,所有审稿人都加了2分,直接跃升排名第9

机器之心
机器之心 · 2024-11-28T05:28:24Z

本文探讨了扩散模型在高维数据生成中的应用,包括图像合成和视频生成。研究提出了一个统一框架,并结合进化算法以提高生成效率,强调了扩散模型的潜力及未来发展方向。

启发式自适应扩散模型进化策略

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-20T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码