小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
GenCtrl — 生成模型的正式可控性工具包

本文介绍了GenCtrl,一个用于生成模型的可控性工具包。随着生成模型的普及,精细控制生成过程的需求增加。研究提出了一种理论框架,评估对话设置中模型的可控性,并提供了误差估计的正式保证。实验证明,模型的可控性脆弱且依赖于实验设置,强调了进行严格可控性分析的必要性。

GenCtrl — 生成模型的正式可控性工具包

Apple Machine Learning Research
Apple Machine Learning Research · 2026-03-06T00:00:00Z
何恺明团队再出大招:Drifting Models 挑战扩散模型,单步生成高质量图像

何恺明团队在arXiv发布了《Generative Modeling via Drifting》论文,提出了Drifting Models生成模型,训练时分布逐步漂移,推理时仅需一步生成,速度提升100倍,质量更佳,标志着生成模型领域的重要转折,期待广泛应用。

何恺明团队再出大招:Drifting Models 挑战扩散模型,单步生成高质量图像

Micropaper
Micropaper · 2026-03-03T00:30:00Z
扩散模型成最快深度思考!告别自回归每秒1009个tokens,英伟达微软都投了

扩散模型Mercury 2成为最快的生成模型,生成速度达到每秒1009个tokens,比传统自回归模型快5倍。其并行优化机制提升了生成速度,并在性能和成本上具有优势。Inception Labs专注于扩散模型,致力于突破速度与成本的瓶颈。

扩散模型成最快深度思考!告别自回归每秒1009个tokens,英伟达微软都投了

量子位
量子位 · 2026-02-26T02:03:18Z
VSSFlow:通过联合学习统一视频条件下的声音和语音生成

VSSFlow是一种新方法,将视频到声音(V2S)和视觉文本到语音(VisualTTS)任务整合在一个框架中。它通过条件聚合机制处理不同输入信号,利用交叉注意力和自注意力层的不同偏差,提升生成效果。VSSFlow在联合学习中表现优异,超越了现有基准,展示了统一生成模型的潜力。

VSSFlow:通过联合学习统一视频条件下的声音和语音生成

Apple Machine Learning Research
Apple Machine Learning Research · 2026-02-06T00:00:00Z
Sketch & Search:Google DeepMind x Qdrant x Freepik 黑客马拉松获奖者

全球黑客马拉松Sketch & Search汇聚开发者,探索AI驱动的创意流程。参赛团队需构建结合生成模型、视觉创作和向量搜索的系统。获奖项目包括Prometheus、Roast My Snack和AutoScape,展示了检索在创意和实用性中的基础作用。

Sketch & Search:Google DeepMind x Qdrant x Freepik 黑客马拉松获奖者

Qdrant - Vector Database
Qdrant - Vector Database · 2026-02-03T00:00:00Z

何恺明团队推出了改进版单步生成模型iMF,解决了训练的稳定性和效率问题。在ImageNet测试中,iMF表现优异,FID成绩为1.72,超越多步扩散模型,证明其性能可与之媲美。

后生可畏!何恺明团队新成果发布,共一清华姚班大二在读

量子位
量子位 · 2025-12-04T00:50:19Z
LinEAS:基于分布损失的激活引导端到端学习

LinEAS是一种新方法,通过全局损失训练激活引导,旨在控制生成模型的输出,减少有害内容。该方法仅需少量无配对样本,在语言模型的毒性缓解上表现优于传统方法,具有更强的鲁棒性和有效性。

LinEAS:基于分布损失的激活引导端到端学习

Apple Machine Learning Research
Apple Machine Learning Research · 2025-11-03T00:00:00Z

谷歌DeepMind与设计师Ross Lovegrove合作,利用生成模型创建椅子设计原型。通过精细调整,AI成功捕捉Lovegrove的设计语言,并将生成的设计转化为金属3D打印的实物椅子,展示了AI在设计中的独特价值。

从草图到原型:与生成式AI共同设计

The Keyword
The Keyword · 2025-10-01T16:00:00Z

研究提出了Transition Model(TiM),旨在解决生成模型中的速度与质量矛盾。TiM通过建模任意时间点的状态转移,支持灵活步长采样,实现快速生成与高保真度的平衡。实验结果表明,TiM在多分辨率设置下优于现有模型,具备更好的可扩展性和稳定性。

兼得快与好!训练新范式TiM,原生支持FSDP+Flash Attention

量子位
量子位 · 2025-09-14T05:45:56Z

GraphRAG结合知识图谱与生成模型,提升大语言模型的推理能力,克服传统RAG的局限性。通过结构化关系网络,GraphRAG实现多跳推理,增强上下文理解,适用于复杂分析与决策支持。

GraphRAG技术深度解析:重新定义智能问答的未来

dotNET跨平台
dotNET跨平台 · 2025-08-31T00:03:12Z
STARFlow:扩展潜在归一化流以实现高分辨率图像合成

STARFlow是一种基于归一化流的生成模型,专注于高分辨率图像合成。其核心是Transformer自回归流(TARFlow),结合了归一化流的表达能力与自回归Transformer的结构建模能力。通过深浅设计、在预训练自编码器的潜在空间建模及新颖的引导算法,STARFlow显著提升了可扩展性和样本质量,接近最先进的扩散模型表现。

STARFlow:扩展潜在归一化流以实现高分辨率图像合成

Apple Machine Learning Research
Apple Machine Learning Research · 2025-06-30T00:00:00Z
Yandex 发布 Alchemist:用于提升文本转图像 T2I 模型质量的增强型监督微调数据集

Yandex 发布了 Alchemist,一个包含 3,350 个图像-文本对的公开 SFT 数据集,旨在提升文本到图像生成模型的输出质量。该数据集通过预训练的扩散模型筛选样本,注重高质量而非数量。评估结果显示,使用 Alchemist 微调的模型在美学和复杂度上显著提升,同时保持文本-图像相关性稳定。这一方法为生成视觉模型设定了新标准和资源。

Yandex 发布 Alchemist:用于提升文本转图像 T2I 模型质量的增强型监督微调数据集

实时互动网
实时互动网 · 2025-06-10T02:09:56Z
计算机视觉的最新进展:生成模型、多模态学习、场景理解与鲁棒性

本文分析了2025年5月25日发布的64篇计算机视觉研究论文,探讨了该领域的主要趋势和技术突破。计算机视觉作为人工智能的基础,涵盖图像分析、医疗影像及视觉与语言结合等主题。研究强调生成模型、医疗应用和多模态学习的重要性,同时关注算法的鲁棒性和公平性,并展望未来研究方向。

计算机视觉的最新进展:生成模型、多模态学习、场景理解与鲁棒性

DEV Community
DEV Community · 2025-05-28T13:15:15Z

本研究探讨了移动健康领域合成传感器数据生成中的挑战,特别是数据稀缺和隐私问题。通过新的评估框架,发现现有生成模型在多模态性和长程依赖性方面存在局限,影响了跨模态一致性和时间连贯性,并指明了未来研究方向。

Challenges and Limitations in the Synthetic Generation of mHealth Sensor Data

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-20T00:00:00Z

本研究提出了深度学习技术用于手织布设计生成,结合生成模型和风格迁移算法,评估不同方法的表现。研究表明生成神经网络在艺术设计理解和合成方面具有潜力,并创建了新的数据集NeuralLoom,以推动该领域发展。

Handloom Design Generation Based on Generative Networks

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-20T00:00:00Z

本研究提出了一种结合亚图提取与生成模型的框架,旨在弥合大脑连接组的复杂性与紧凑基因编码之间的差距,提供可解释的低维神经电路表示,为理解大脑结构和设计生物启发的人工神经网络提供新工具。

Revealing and Guiding the Interpretable Latent Variables of Connectome Organization

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-19T00:00:00Z
计算机视觉的最新进展:多模态融合、鲁棒性与跨领域的可扩展智能

本文讨论了2025年5月12日发布的十六篇计算机视觉研究论文,涉及多模态融合、鲁棒性、效率、医疗应用和生成模型等主题。计算机视觉旨在使机器理解视觉信息,推动自动驾驶和医疗诊断等领域的发展。研究表明,集成多种数据、提升模型鲁棒性和效率是当前主要挑战,未来将关注生成模型的伦理问题及其在医疗中的应用。

计算机视觉的最新进展:多模态融合、鲁棒性与跨领域的可扩展智能

DEV Community
DEV Community · 2025-05-15T07:33:33Z

本研究探讨了生成大型语言模型与传统自然语言处理在医疗任务中的差异。分析19123项研究发现,生成模型在开放性任务中表现优越,而传统方法在信息提取和分析中占主导地位。确保技术在医学中的伦理使用至关重要。

The Evolution of Generative Large Language Models and Traditional Natural Language Processing in Medicine

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-15T00:00:00Z

本研究提出通过扩散变换器提升图像理解与生成模型的训练效率和生成质量。采用顺序预训练策略,开发的BLIP3-o模型在基准测试中表现优异,并开放源代码和数据集以促进研究。

BLIP3-o:一种完全开放的统一多模态模型—架构、训练与数据集

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-14T00:00:00Z

本研究分析了7种基于扩散的生成文本到音频模型的能耗与环境影响,提出了性能与能耗的平衡方案,以提高生成音频模型的效率。

Diffusion Responsibility: Analyzing the Energy Consumption of Text-to-Audio Diffusion Models

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-12T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码