小红花·文摘 - 小红花技术领袖俱乐部

推测解码：工作原理、应用场景及其在推理架构中的位置

推测解码：工作原理、应用场景及其在推理架构中的位置

Redis Blog ·

对话VAST曹炎培：2秒才是3D生成本该有的速度

量子位 ·

Nano Banana 2 的 5 个神级玩法，还是 AI 生图的神，建议收藏（附提示词）

Nano Banana 2 的 5 个神级玩法，还是 AI 生图的神，建议收藏（附提示词）

爱范儿 ·

使用扩散生成文本（以及使用LLMs的投资回报）

使用扩散生成文本（以及使用LLMs的投资回报）

Stack Overflow Blog ·

交互式世界建模新方案！腾讯混元发布世界模型WorldPlay，兼顾实时生成与长期几何一致性；5万条样本！Med-Banana-50K支持增删病灶双向编辑

交互式世界建模新方案！腾讯混元发布世界模型WorldPlay，兼顾实时生成与长期几何一致性；5万条样本！Med-Banana-50K支持增删病灶双向编辑

HyperAI超神经 ·

交互式世界建模新方案！腾讯混元发布世界模型WorldPlay，兼顾实时生成与长期几何一致性；5万条样本！Med-Banana-50K支持增删病灶双向编辑

交互式世界建模新方案！腾讯混元发布世界模型WorldPlay，兼顾实时生成与长期几何一致性；5万条样本！Med-Banana-50K支持增删病灶双向编辑

HyperAI超神经 ·

刚刚，OpenAI 版 Nano Banana 发布：奥特曼秒变性感男模｜附实测

刚刚，OpenAI 版 Nano Banana 发布：奥特曼秒变性感男模｜附实测

爱范儿 ·

蚂蚁集团赵俊博在MEET2026大会上介绍了扩散模型的优势，指出其可直接修改token，从而提升生成速度和降低计算成本。他们开源了LLaDA 2.0，首次实现千亿参数的扩散语言模型，引发行业关注。

跳过“逐字生成”！蚂蚁集团赵俊博：扩散模型让我们能直接修改Token | MEET2026

量子位 ·

大型语言模型生成优化与成本降低的提示压缩

大型语言模型生成优化与成本降低的提示压缩

MachineLearningMastery.com ·

来看下我装备了5060TI显卡的gpt-oss模型表现

来看下我装备了5060TI显卡的gpt-oss模型表现

Nicksxs's Blog ·

清华与快手团队推出的SVG模型在训练效率上提升6200%，生成速度提升3500%。该模型通过构建语义与细节融合的特征空间，解决了VAE的语义纠缠问题，支持多任务通用，生成质量和效率显著优于传统方法。

VAE再被补刀！清华快手SVG扩散模型亮相，训练提效6200%，生成提速3500%

量子位 ·

xAI推出了Grok 4 Fast，生成速度达到每秒75个token，比标准版快10倍。用户测试显示其在编程和问答方面表现优异，但在某些情况下准确性仍有问题。Grok 4 Fast适合需要快速结果的用户，尽管与专家模式相比有所妥协。

马斯克的最快AI模型来了

量子位 ·

你的语言模型预知未来：揭示其多标记预测潜力

你的语言模型预知未来：揭示其多标记预测潜力

Apple Machine Learning Research ·

李飞飞团队提出了一种名为“嫁接”的新方法，通过修改预训练模型组件，节省计算资源并验证新架构设计。研究表明，使用不到2%的预训练算力仍能保持模型性能，并提升生成速度，适合资源有限的场景。

李飞飞团队提出架构设计新思路！无需从头训练，直接“嫁接”预训练模型关键组件

量子位 ·

谷歌的Gemini Diffusion模型利用扩散技术，在12秒内生成1万tokens，速度比传统模型快2000倍。该模型通过逐步优化噪声生成文本，支持非因果推理，提升生成质量和一致性。

12秒生成1万token！谷歌推出文本「扩散模型」Gemini Diffusion，研究员：演示都得降速看

量子位 ·

本研究提出了一种新颖的对抗相对对比（ARC）后训练算法，旨在加速文本到音频系统的生成速度，使其在约75毫秒内生成12秒高质量立体声音频，成为行业最快的模型。

Fast Text-to-Audio Generation Based on Adversarial Post-Training

BriefGPT - AI 论文速递 ·

达摩院在ICLR 2025上发布了DyDiT架构，通过智能资源分配将DiT模型的推理算力减少51%，生成速度提升1.73倍，几乎无损生成质量。该架构动态调整计算，解决了传统模型的算力冗余问题，并已开源，适配多种生成任务。

质量无损，算力砍半！达摩院开源视觉生成新架构，出道即SOTA｜ICLR 2025

量子位 ·

4o图像生成 - 扩散/变换器交叉趋势？

4o图像生成 - 扩散/变换器交叉趋势？

DEV Community ·

SGLang与Llama.cpp的快速速度测试

SGLang与Llama.cpp的快速速度测试

DEV Community ·

DeepSeek V3模型发布，参数量671B，训练成本仅557.6万美元，算力消耗为Llama 3的1/11。性能超越多款顶尖模型，生成速度提升3倍，API价格大幅降低，完全开源，支持FP8和BF16推理，受到广泛关注与测试。

国产之光DeepSeek把AI大佬全炸出来了！671B大模型训练只需此前算力1/10，细节全公开

量子位 ·