小红花·文摘 - 小红花技术领袖俱乐部

本地模型在编码中的可行性

本地模型在编码中的可行性

Martin Fowler ·

CVPR NTIRE 2026｜UGC短视频智能修复挑战赛结果出炉！

CVPR NTIRE 2026｜UGC短视频智能修复挑战赛结果出炉！

实时互动网 ·

语音增强中的自监督学习：从无配对训练到基础模型先验

语音增强中的自监督学习：从无配对训练到基础模型先验

实时互动网 ·

带有迭代去噪的归一化流

带有迭代去噪的归一化流

Apple Machine Learning Research ·

本文讨论了生成模型与判别模型的区别。生成模型学习数据的概率分布，而判别模型则关注于根据输入数据预测标签。介绍了自回归模型、变分自编码器（VAE）和生成对抗网络（GAN）的基本原理及训练方法。变分自编码器通过编码器和解码器提取特征，生成对抗网络通过生成器和判别器进行对抗训练。最后，探讨了扩散模型在图像生成中的稳定性和多样性。

CS231n 讲义：生成模型

Louis Aeilot's Blog ·

因果掩码是自回归生成模型中的关键技术，确保模型在训练时仅依赖过去的信息，解决了Transformer在并行处理与生成任务之间的矛盾。通过将上三角部分设为负无穷，因果掩码确保模型在生成时不“偷看”未来的token。这一技术是现代大语言模型（如GPT系列）的基础，提升了模型训练的效率和规模。

【Transformer 与注意力机制】17｜Causal Mask：让模型只看过去不看未来

土法炼钢兴趣小组的博客 ·

GenCtrl — 生成模型的正式可控性工具包

GenCtrl — 生成模型的正式可控性工具包

Apple Machine Learning Research ·

何恺明团队再出大招：Drifting Models 挑战扩散模型，单步生成高质量图像

何恺明团队再出大招：Drifting Models 挑战扩散模型，单步生成高质量图像

Micropaper ·

扩散模型成最快深度思考！告别自回归每秒1009个tokens，英伟达微软都投了

扩散模型成最快深度思考！告别自回归每秒1009个tokens，英伟达微软都投了

量子位 ·

VSSFlow：通过联合学习统一视频条件下的声音和语音生成

VSSFlow：通过联合学习统一视频条件下的声音和语音生成

Apple Machine Learning Research ·

Sketch & Search：Google DeepMind x Qdrant x Freepik 黑客马拉松获奖者

Sketch & Search：Google DeepMind x Qdrant x Freepik 黑客马拉松获奖者

Qdrant - Vector Database ·

何恺明团队推出了改进版单步生成模型iMF，解决了训练的稳定性和效率问题。在ImageNet测试中，iMF表现优异，FID成绩为1.72，超越多步扩散模型，证明其性能可与之媲美。

后生可畏！何恺明团队新成果发布，共一清华姚班大二在读

量子位 ·

LinEAS：基于分布损失的激活引导端到端学习

LinEAS：基于分布损失的激活引导端到端学习

Apple Machine Learning Research ·

谷歌DeepMind与设计师Ross Lovegrove合作，利用生成模型创建椅子设计原型。通过精细调整，AI成功捕捉Lovegrove的设计语言，并将生成的设计转化为金属3D打印的实物椅子，展示了AI在设计中的独特价值。

从草图到原型：与生成式AI共同设计

The Keyword ·

研究提出了Transition Model（TiM），旨在解决生成模型中的速度与质量矛盾。TiM通过建模任意时间点的状态转移，支持灵活步长采样，实现快速生成与高保真度的平衡。实验结果表明，TiM在多分辨率设置下优于现有模型，具备更好的可扩展性和稳定性。

兼得快与好！训练新范式TiM，原生支持FSDP+Flash Attention

量子位 ·

GraphRAG结合知识图谱与生成模型，提升大语言模型的推理能力，克服传统RAG的局限性。通过结构化关系网络，GraphRAG实现多跳推理，增强上下文理解，适用于复杂分析与决策支持。

GraphRAG技术深度解析：重新定义智能问答的未来

dotNET跨平台 ·

STARFlow：扩展潜在归一化流以实现高分辨率图像合成

STARFlow：扩展潜在归一化流以实现高分辨率图像合成

Apple Machine Learning Research ·

Yandex 发布 Alchemist：用于提升文本转图像 T2I 模型质量的增强型监督微调数据集

Yandex 发布 Alchemist：用于提升文本转图像 T2I 模型质量的增强型监督微调数据集

实时互动网 ·

计算机视觉的最新进展：生成模型、多模态学习、场景理解与鲁棒性

计算机视觉的最新进展：生成模型、多模态学习、场景理解与鲁棒性

DEV Community ·

本研究探讨了移动健康领域合成传感器数据生成中的挑战，特别是数据稀缺和隐私问题。通过新的评估框架，发现现有生成模型在多模态性和长程依赖性方面存在局限，影响了跨模态一致性和时间连贯性，并指明了未来研究方向。

Challenges and Limitations in the Synthetic Generation of mHealth Sensor Data

BriefGPT - AI 论文速递 ·