小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
CVPR NTIRE 2026|UGC短视频智能修复挑战赛结果出炉!

NTIRE 2026挑战赛专注于UGC短视频的复杂降质修复,面向全球研究者开放。比赛基于KwaiVIR数据集,涵盖合成与真实降质视频,旨在推动生成模型在视频修复中的应用。共95支队伍参赛,最终12支提交有效结果,展示了UGC短视频修复的进展。

CVPR NTIRE 2026|UGC短视频智能修复挑战赛结果出炉!

实时互动网
实时互动网 · 2026-06-09T06:44:23Z
语音增强中的自监督学习:从无配对训练到基础模型先验

语音增强(SE)面临数据、目标和任务等挑战,自监督学习(SSL)逐渐成为解决方案。SSL通过未配对数据学习和生成式方法,重塑了SE的训练目标。研究表明,SSL特征在增强任务中有效,未来将关注多任务统一增强、低信噪比生成模型及可控的语音生成。整体来看,SSL为SE提供了更强的先验和设计空间。

语音增强中的自监督学习:从无配对训练到基础模型先验

实时互动网
实时互动网 · 2026-06-03T06:35:16Z
带有迭代去噪的归一化流

本文介绍了迭代去噪的归一化流(iTARFlow),一种新型生成模型。与扩散模型不同,iTARFlow在训练中保持完全的端到端似然目标,并在采样时结合自回归生成和迭代去噪过程。实验结果表明,iTARFlow在不同分辨率的图像生成任务中表现优异,展现了其作为强大生成模型的潜力。

带有迭代去噪的归一化流

Apple Machine Learning Research
Apple Machine Learning Research · 2026-05-06T00:00:00Z

本文讨论了生成模型与判别模型的区别。生成模型学习数据的概率分布,而判别模型则关注于根据输入数据预测标签。介绍了自回归模型、变分自编码器(VAE)和生成对抗网络(GAN)的基本原理及训练方法。变分自编码器通过编码器和解码器提取特征,生成对抗网络通过生成器和判别器进行对抗训练。最后,探讨了扩散模型在图像生成中的稳定性和多样性。

CS231n 讲义:生成模型

Louis Aeilot's Blog
Louis Aeilot's Blog · 2026-05-03T00:45:09Z

因果掩码是自回归生成模型中的关键技术,确保模型在训练时仅依赖过去的信息,解决了Transformer在并行处理与生成任务之间的矛盾。通过将上三角部分设为负无穷,因果掩码确保模型在生成时不“偷看”未来的token。这一技术是现代大语言模型(如GPT系列)的基础,提升了模型训练的效率和规模。

【Transformer 与注意力机制】17|Causal Mask:让模型只看过去不看未来

土法炼钢兴趣小组的博客
土法炼钢兴趣小组的博客 · 2026-04-15T00:00:00Z
GenCtrl — 生成模型的正式可控性工具包

本文介绍了GenCtrl,一个用于生成模型的可控性工具包。随着生成模型的普及,精细控制生成过程的需求增加。研究提出了一种理论框架,评估对话设置中模型的可控性,并提供了误差估计的正式保证。实验证明,模型的可控性脆弱且依赖于实验设置,强调了进行严格可控性分析的必要性。

GenCtrl — 生成模型的正式可控性工具包

Apple Machine Learning Research
Apple Machine Learning Research · 2026-03-06T00:00:00Z
何恺明团队再出大招:Drifting Models 挑战扩散模型,单步生成高质量图像

何恺明团队在arXiv发布了《Generative Modeling via Drifting》论文,提出了Drifting Models生成模型,训练时分布逐步漂移,推理时仅需一步生成,速度提升100倍,质量更佳,标志着生成模型领域的重要转折,期待广泛应用。

何恺明团队再出大招:Drifting Models 挑战扩散模型,单步生成高质量图像

Micropaper
Micropaper · 2026-03-03T00:30:00Z
扩散模型成最快深度思考!告别自回归每秒1009个tokens,英伟达微软都投了

扩散模型Mercury 2成为最快的生成模型,生成速度达到每秒1009个tokens,比传统自回归模型快5倍。其并行优化机制提升了生成速度,并在性能和成本上具有优势。Inception Labs专注于扩散模型,致力于突破速度与成本的瓶颈。

扩散模型成最快深度思考!告别自回归每秒1009个tokens,英伟达微软都投了

量子位
量子位 · 2026-02-26T02:03:18Z
VSSFlow:通过联合学习统一视频条件下的声音和语音生成

VSSFlow是一种新方法,将视频到声音(V2S)和视觉文本到语音(VisualTTS)任务整合在一个框架中。它通过条件聚合机制处理不同输入信号,利用交叉注意力和自注意力层的不同偏差,提升生成效果。VSSFlow在联合学习中表现优异,超越了现有基准,展示了统一生成模型的潜力。

VSSFlow:通过联合学习统一视频条件下的声音和语音生成

Apple Machine Learning Research
Apple Machine Learning Research · 2026-02-06T00:00:00Z
Sketch & Search:Google DeepMind x Qdrant x Freepik 黑客马拉松获奖者

全球黑客马拉松Sketch & Search汇聚开发者,探索AI驱动的创意流程。参赛团队需构建结合生成模型、视觉创作和向量搜索的系统。获奖项目包括Prometheus、Roast My Snack和AutoScape,展示了检索在创意和实用性中的基础作用。

Sketch & Search:Google DeepMind x Qdrant x Freepik 黑客马拉松获奖者

Qdrant - Vector Database
Qdrant - Vector Database · 2026-02-03T00:00:00Z

何恺明团队推出了改进版单步生成模型iMF,解决了训练的稳定性和效率问题。在ImageNet测试中,iMF表现优异,FID成绩为1.72,超越多步扩散模型,证明其性能可与之媲美。

后生可畏!何恺明团队新成果发布,共一清华姚班大二在读

量子位
量子位 · 2025-12-04T00:50:19Z
LinEAS:基于分布损失的激活引导端到端学习

LinEAS是一种新方法,通过全局损失训练激活引导,旨在控制生成模型的输出,减少有害内容。该方法仅需少量无配对样本,在语言模型的毒性缓解上表现优于传统方法,具有更强的鲁棒性和有效性。

LinEAS:基于分布损失的激活引导端到端学习

Apple Machine Learning Research
Apple Machine Learning Research · 2025-11-03T00:00:00Z

谷歌DeepMind与设计师Ross Lovegrove合作,利用生成模型创建椅子设计原型。通过精细调整,AI成功捕捉Lovegrove的设计语言,并将生成的设计转化为金属3D打印的实物椅子,展示了AI在设计中的独特价值。

从草图到原型:与生成式AI共同设计

The Keyword
The Keyword · 2025-10-01T16:00:00Z

研究提出了Transition Model(TiM),旨在解决生成模型中的速度与质量矛盾。TiM通过建模任意时间点的状态转移,支持灵活步长采样,实现快速生成与高保真度的平衡。实验结果表明,TiM在多分辨率设置下优于现有模型,具备更好的可扩展性和稳定性。

兼得快与好!训练新范式TiM,原生支持FSDP+Flash Attention

量子位
量子位 · 2025-09-14T05:45:56Z

GraphRAG结合知识图谱与生成模型,提升大语言模型的推理能力,克服传统RAG的局限性。通过结构化关系网络,GraphRAG实现多跳推理,增强上下文理解,适用于复杂分析与决策支持。

GraphRAG技术深度解析:重新定义智能问答的未来

dotNET跨平台
dotNET跨平台 · 2025-08-31T00:03:12Z
STARFlow:扩展潜在归一化流以实现高分辨率图像合成

STARFlow是一种基于归一化流的生成模型,专注于高分辨率图像合成。其核心是Transformer自回归流(TARFlow),结合了归一化流的表达能力与自回归Transformer的结构建模能力。通过深浅设计、在预训练自编码器的潜在空间建模及新颖的引导算法,STARFlow显著提升了可扩展性和样本质量,接近最先进的扩散模型表现。

STARFlow:扩展潜在归一化流以实现高分辨率图像合成

Apple Machine Learning Research
Apple Machine Learning Research · 2025-06-30T00:00:00Z
Yandex 发布 Alchemist:用于提升文本转图像 T2I 模型质量的增强型监督微调数据集

Yandex 发布了 Alchemist,一个包含 3,350 个图像-文本对的公开 SFT 数据集,旨在提升文本到图像生成模型的输出质量。该数据集通过预训练的扩散模型筛选样本,注重高质量而非数量。评估结果显示,使用 Alchemist 微调的模型在美学和复杂度上显著提升,同时保持文本-图像相关性稳定。这一方法为生成视觉模型设定了新标准和资源。

Yandex 发布 Alchemist:用于提升文本转图像 T2I 模型质量的增强型监督微调数据集

实时互动网
实时互动网 · 2025-06-10T02:09:56Z
计算机视觉的最新进展:生成模型、多模态学习、场景理解与鲁棒性

本文分析了2025年5月25日发布的64篇计算机视觉研究论文,探讨了该领域的主要趋势和技术突破。计算机视觉作为人工智能的基础,涵盖图像分析、医疗影像及视觉与语言结合等主题。研究强调生成模型、医疗应用和多模态学习的重要性,同时关注算法的鲁棒性和公平性,并展望未来研究方向。

计算机视觉的最新进展:生成模型、多模态学习、场景理解与鲁棒性

DEV Community
DEV Community · 2025-05-28T13:15:15Z

本研究提出了深度学习技术用于手织布设计生成,结合生成模型和风格迁移算法,评估不同方法的表现。研究表明生成神经网络在艺术设计理解和合成方面具有潜力,并创建了新的数据集NeuralLoom,以推动该领域发展。

Handloom Design Generation Based on Generative Networks

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-20T00:00:00Z

本研究探讨了移动健康领域合成传感器数据生成中的挑战,特别是数据稀缺和隐私问题。通过新的评估框架,发现现有生成模型在多模态性和长程依赖性方面存在局限,影响了跨模态一致性和时间连贯性,并指明了未来研究方向。

Challenges and Limitations in the Synthetic Generation of mHealth Sensor Data

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-20T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码