本文讨论了推测解码在大语言模型推理中的应用,旨在加速请求而不影响输出。通过使用小型草稿模型生成多个候选令牌,主模型可以快速验证这些候选,从而提高生成速度。不同变体如EAGLE-3和SuffixDecoding针对不同限制进行了优化,显著提升了速度。推测解码与语义缓存相辅相成,有效降低请求延迟。选择合适的技术与工作负载匹配是实现最佳性能的关键。
VAST推出的Tripo P1.0模型能在2秒内生成高质量3D模型,突破了传统AI 3D生成算法的局限,提升了生成速度和质量,预计将推动UGC互动平台的发展,方便更多人创造3D内容。
Nano Banana 2 发布后,用户反馈生成速度有所提升,但图片美学表现不如 Pro 版本。新功能包括全球化海报生成和城市天气视图,支持多种语言翻译。价格更低,用户可生成更多图片,新增的比例选择和图片搜索功能提升了使用体验。整体来看,Nano Banana 2 在稳定性和功能上有所改进,适合设计师使用。
本期节目包含两次采访。第一部分,Ryan与Inception的CEO Stefano Ermon讨论扩散语言模型的生成速度和准确性。第二部分,Ryan与Roomie的主席Aldo Luevano探讨Roomie在物理和软件AI模型构建中的ROI优先方法,以帮助公司评估机器人和AI的影响。
腾讯混元团队推出的WorldPlay是一个实时交互的世界模型,解决了生成速度与内存占用之间的平衡。该模型通过双重动作表示法、重构上下文记忆机制和情境强迫蒸馏方法,实现了长期几何一致性,能够以24 FPS生成720p高清流媒体视频,展现出优秀的泛化能力。
腾讯混元团队推出的世界模型WorldPlay,实现了实时交互式世界建模,解决了生成速度与内存占用的平衡问题。该模型采用双重动作表示法、重构上下文记忆机制和情境强迫蒸馏方法,能够以24 FPS生成720p高清流媒体视频,展现出优秀的泛化能力,为具身智能和游戏开发等领域开辟了新前景。
OpenAI推出的GPT-Image-1.5图像模型具备更精准的编辑能力和更快的生成速度,能够理解复杂指令并保持画面一致性,适用于多种场景。尽管中文表现有待提升,但其图像生成能力显著增强,标志着AI图像工具向实用化转变。
蚂蚁集团赵俊博在MEET2026大会上介绍了扩散模型的优势,指出其可直接修改token,从而提升生成速度和降低计算成本。他们开源了LLaDA 2.0,首次实现千亿参数的扩散语言模型,引发行业关注。
本文介绍了五种提示压缩技术,以减少大型语言模型(LLM)的令牌数量,提升生成速度和任务质量。这些技术包括语义摘要、结构化提示、相关性过滤、指令引用和模板抽象,旨在提高模型效率和一致性,降低计算成本。
在3060笔记本上测试gpt-oss时,生成速度为4.66token/s。更换为5060TI后,速度提升至27.91token/s,效果更佳。显存加载显著影响性能,未来可尝试32B模型。
清华与快手团队推出的SVG模型在训练效率上提升6200%,生成速度提升3500%。该模型通过构建语义与细节融合的特征空间,解决了VAE的语义纠缠问题,支持多任务通用,生成质量和效率显著优于传统方法。
xAI推出了Grok 4 Fast,生成速度达到每秒75个token,比标准版快10倍。用户测试显示其在编程和问答方面表现优异,但在某些情况下准确性仍有问题。Grok 4 Fast适合需要快速结果的用户,尽管与专家模式相比有所妥协。
本文提出了一种新框架,利用自回归语言模型提升生成速度和并行性。关键创新包括掩码输入形式、门控LoRA结构、轻量可学习采样模块、辅助训练损失和投机生成策略。该方法在预训练模型上进行监督微调,生成速度提高近5倍,且质量无损。
李飞飞团队提出了一种名为“嫁接”的新方法,通过修改预训练模型组件,节省计算资源并验证新架构设计。研究表明,使用不到2%的预训练算力仍能保持模型性能,并提升生成速度,适合资源有限的场景。
谷歌的Gemini Diffusion模型利用扩散技术,在12秒内生成1万tokens,速度比传统模型快2000倍。该模型通过逐步优化噪声生成文本,支持非因果推理,提升生成质量和一致性。
本研究提出了一种新颖的对抗相对对比(ARC)后训练算法,旨在加速文本到音频系统的生成速度,使其在约75毫秒内生成12秒高质量立体声音频,成为行业最快的模型。
达摩院在ICLR 2025上发布了DyDiT架构,通过智能资源分配将DiT模型的推理算力减少51%,生成速度提升1.73倍,几乎无损生成质量。该架构动态调整计算,解决了传统模型的算力冗余问题,并已开源,适配多种生成任务。
三月,谷歌和OpenAI推出新图像生成工具,支持连续生成和编辑,文本渲染效果更佳,采用扩散模型与变换器模型结合。二月,Inception Labs与中国团队发布新LLM,应用扩散模型提升生成速度。LLM与图像生成的交叉发展值得关注。
SGLang是一个开源的LLM推理引擎,声称比其他解决方案快2-5倍。与LM Studio相比,SGLang生成速度略快,但模型加载慢且配置复杂。对于本地使用,Llama.cpp更方便,而SGLang更适合多用户生产环境。
DeepSeek V3模型发布,参数量671B,训练成本仅557.6万美元,算力消耗为Llama 3的1/11。性能超越多款顶尖模型,生成速度提升3倍,API价格大幅降低,完全开源,支持FP8和BF16推理,受到广泛关注与测试。
完成下面两步后,将自动完成登录并继续当前操作。