小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
CVPR NTIRE 2026|UGC短视频智能修复挑战赛结果出炉!

NTIRE 2026挑战赛专注于UGC短视频的复杂降质修复,面向全球研究者开放。比赛基于KwaiVIR数据集,涵盖合成与真实降质视频,旨在推动生成模型在视频修复中的应用。共95支队伍参赛,最终12支提交有效结果,展示了UGC短视频修复的进展。

CVPR NTIRE 2026|UGC短视频智能修复挑战赛结果出炉!

实时互动网
实时互动网 · 2026-06-09T06:44:23Z
语音增强中的自监督学习:从无配对训练到基础模型先验

语音增强(SE)面临数据、目标和任务等挑战,自监督学习(SSL)逐渐成为解决方案。SSL通过未配对数据学习和生成式方法,重塑了SE的训练目标。研究表明,SSL特征在增强任务中有效,未来将关注多任务统一增强、低信噪比生成模型及可控的语音生成。整体来看,SSL为SE提供了更强的先验和设计空间。

语音增强中的自监督学习:从无配对训练到基础模型先验

实时互动网
实时互动网 · 2026-06-03T06:35:16Z
带有迭代去噪的归一化流

本文介绍了迭代去噪的归一化流(iTARFlow),一种新型生成模型。与扩散模型不同,iTARFlow在训练中保持完全的端到端似然目标,并在采样时结合自回归生成和迭代去噪过程。实验结果表明,iTARFlow在不同分辨率的图像生成任务中表现优异,展现了其作为强大生成模型的潜力。

带有迭代去噪的归一化流

Apple Machine Learning Research
Apple Machine Learning Research · 2026-05-06T00:00:00Z

本文讨论了生成模型与判别模型的区别。生成模型学习数据的概率分布,而判别模型则关注于根据输入数据预测标签。介绍了自回归模型、变分自编码器(VAE)和生成对抗网络(GAN)的基本原理及训练方法。变分自编码器通过编码器和解码器提取特征,生成对抗网络通过生成器和判别器进行对抗训练。最后,探讨了扩散模型在图像生成中的稳定性和多样性。

CS231n 讲义:生成模型

Louis Aeilot's Blog
Louis Aeilot's Blog · 2026-05-03T00:45:09Z

因果掩码是自回归生成模型中的关键技术,确保模型在训练时仅依赖过去的信息,解决了Transformer在并行处理与生成任务之间的矛盾。通过将上三角部分设为负无穷,因果掩码确保模型在生成时不“偷看”未来的token。这一技术是现代大语言模型(如GPT系列)的基础,提升了模型训练的效率和规模。

【Transformer 与注意力机制】17|Causal Mask:让模型只看过去不看未来

土法炼钢兴趣小组的博客
土法炼钢兴趣小组的博客 · 2026-04-15T00:00:00Z
GenCtrl — 生成模型的正式可控性工具包

本文介绍了GenCtrl,一个用于生成模型的可控性工具包。随着生成模型的普及,精细控制生成过程的需求增加。研究提出了一种理论框架,评估对话设置中模型的可控性,并提供了误差估计的正式保证。实验证明,模型的可控性脆弱且依赖于实验设置,强调了进行严格可控性分析的必要性。

GenCtrl — 生成模型的正式可控性工具包

Apple Machine Learning Research
Apple Machine Learning Research · 2026-03-06T00:00:00Z
何恺明团队再出大招:Drifting Models 挑战扩散模型,单步生成高质量图像

何恺明团队在arXiv发布了《Generative Modeling via Drifting》论文,提出了Drifting Models生成模型,训练时分布逐步漂移,推理时仅需一步生成,速度提升100倍,质量更佳,标志着生成模型领域的重要转折,期待广泛应用。

何恺明团队再出大招:Drifting Models 挑战扩散模型,单步生成高质量图像

Micropaper
Micropaper · 2026-03-03T00:30:00Z
扩散模型成最快深度思考!告别自回归每秒1009个tokens,英伟达微软都投了

扩散模型Mercury 2成为最快的生成模型,生成速度达到每秒1009个tokens,比传统自回归模型快5倍。其并行优化机制提升了生成速度,并在性能和成本上具有优势。Inception Labs专注于扩散模型,致力于突破速度与成本的瓶颈。

扩散模型成最快深度思考!告别自回归每秒1009个tokens,英伟达微软都投了

量子位
量子位 · 2026-02-26T02:03:18Z
VSSFlow:通过联合学习统一视频条件下的声音和语音生成

VSSFlow是一种新方法,将视频到声音(V2S)和视觉文本到语音(VisualTTS)任务整合在一个框架中。它通过条件聚合机制处理不同输入信号,利用交叉注意力和自注意力层的不同偏差,提升生成效果。VSSFlow在联合学习中表现优异,超越了现有基准,展示了统一生成模型的潜力。

VSSFlow:通过联合学习统一视频条件下的声音和语音生成

Apple Machine Learning Research
Apple Machine Learning Research · 2026-02-06T00:00:00Z
Sketch & Search:Google DeepMind x Qdrant x Freepik 黑客马拉松获奖者

全球黑客马拉松Sketch & Search汇聚开发者,探索AI驱动的创意流程。参赛团队需构建结合生成模型、视觉创作和向量搜索的系统。获奖项目包括Prometheus、Roast My Snack和AutoScape,展示了检索在创意和实用性中的基础作用。

Sketch & Search:Google DeepMind x Qdrant x Freepik 黑客马拉松获奖者

Qdrant - Vector Database
Qdrant - Vector Database · 2026-02-03T00:00:00Z

何恺明团队推出了改进版单步生成模型iMF,解决了训练的稳定性和效率问题。在ImageNet测试中,iMF表现优异,FID成绩为1.72,超越多步扩散模型,证明其性能可与之媲美。

后生可畏!何恺明团队新成果发布,共一清华姚班大二在读

量子位
量子位 · 2025-12-04T00:50:19Z
LinEAS:基于分布损失的激活引导端到端学习

LinEAS是一种新方法,通过全局损失训练激活引导,旨在控制生成模型的输出,减少有害内容。该方法仅需少量无配对样本,在语言模型的毒性缓解上表现优于传统方法,具有更强的鲁棒性和有效性。

LinEAS:基于分布损失的激活引导端到端学习

Apple Machine Learning Research
Apple Machine Learning Research · 2025-11-03T00:00:00Z

谷歌DeepMind与设计师Ross Lovegrove合作,利用生成模型创建椅子设计原型。通过精细调整,AI成功捕捉Lovegrove的设计语言,并将生成的设计转化为金属3D打印的实物椅子,展示了AI在设计中的独特价值。

从草图到原型:与生成式AI共同设计

The Keyword
The Keyword · 2025-10-01T16:00:00Z

研究提出了Transition Model(TiM),旨在解决生成模型中的速度与质量矛盾。TiM通过建模任意时间点的状态转移,支持灵活步长采样,实现快速生成与高保真度的平衡。实验结果表明,TiM在多分辨率设置下优于现有模型,具备更好的可扩展性和稳定性。

兼得快与好!训练新范式TiM,原生支持FSDP+Flash Attention

量子位
量子位 · 2025-09-14T05:45:56Z

GraphRAG结合知识图谱与生成模型,提升大语言模型的推理能力,克服传统RAG的局限性。通过结构化关系网络,GraphRAG实现多跳推理,增强上下文理解,适用于复杂分析与决策支持。

GraphRAG技术深度解析:重新定义智能问答的未来

dotNET跨平台
dotNET跨平台 · 2025-08-31T00:03:12Z
STARFlow:扩展潜在归一化流以实现高分辨率图像合成

STARFlow是一种基于归一化流的生成模型,专注于高分辨率图像合成。其核心是Transformer自回归流(TARFlow),结合了归一化流的表达能力与自回归Transformer的结构建模能力。通过深浅设计、在预训练自编码器的潜在空间建模及新颖的引导算法,STARFlow显著提升了可扩展性和样本质量,接近最先进的扩散模型表现。

STARFlow:扩展潜在归一化流以实现高分辨率图像合成

Apple Machine Learning Research
Apple Machine Learning Research · 2025-06-30T00:00:00Z
Yandex 发布 Alchemist:用于提升文本转图像 T2I 模型质量的增强型监督微调数据集

Yandex 发布了 Alchemist,一个包含 3,350 个图像-文本对的公开 SFT 数据集,旨在提升文本到图像生成模型的输出质量。该数据集通过预训练的扩散模型筛选样本,注重高质量而非数量。评估结果显示,使用 Alchemist 微调的模型在美学和复杂度上显著提升,同时保持文本-图像相关性稳定。这一方法为生成视觉模型设定了新标准和资源。

Yandex 发布 Alchemist:用于提升文本转图像 T2I 模型质量的增强型监督微调数据集

实时互动网
实时互动网 · 2025-06-10T02:09:56Z
计算机视觉的最新进展:生成模型、多模态学习、场景理解与鲁棒性

本文分析了2025年5月25日发布的64篇计算机视觉研究论文,探讨了该领域的主要趋势和技术突破。计算机视觉作为人工智能的基础,涵盖图像分析、医疗影像及视觉与语言结合等主题。研究强调生成模型、医疗应用和多模态学习的重要性,同时关注算法的鲁棒性和公平性,并展望未来研究方向。

计算机视觉的最新进展:生成模型、多模态学习、场景理解与鲁棒性

DEV Community
DEV Community · 2025-05-28T13:15:15Z

本研究提出了深度学习技术用于手织布设计生成,结合生成模型和风格迁移算法,评估不同方法的表现。研究表明生成神经网络在艺术设计理解和合成方面具有潜力,并创建了新的数据集NeuralLoom,以推动该领域发展。

Handloom Design Generation Based on Generative Networks

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-20T00:00:00Z

本研究探讨了移动健康领域合成传感器数据生成中的挑战,特别是数据稀缺和隐私问题。通过新的评估框架,发现现有生成模型在多模态性和长程依赖性方面存在局限,影响了跨模态一致性和时间连贯性,并指明了未来研究方向。

Challenges and Limitations in the Synthetic Generation of mHealth Sensor Data

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-20T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码