小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
推测解码:工作原理、应用场景及其在推理架构中的位置

本文讨论了推测解码在大语言模型推理中的应用,旨在加速请求而不影响输出。通过使用小型草稿模型生成多个候选令牌,主模型可以快速验证这些候选,从而提高生成速度。不同变体如EAGLE-3和SuffixDecoding针对不同限制进行了优化,显著提升了速度。推测解码与语义缓存相辅相成,有效降低请求延迟。选择合适的技术与工作负载匹配是实现最佳性能的关键。

推测解码:工作原理、应用场景及其在推理架构中的位置

Redis Blog
Redis Blog · 2026-04-22T00:00:00Z
对话VAST曹炎培:2秒才是3D生成本该有的速度

VAST推出的Tripo P1.0模型能在2秒内生成高质量3D模型,突破了传统AI 3D生成算法的局限,提升了生成速度和质量,预计将推动UGC互动平台的发展,方便更多人创造3D内容。

对话VAST曹炎培:2秒才是3D生成本该有的速度

量子位
量子位 · 2026-03-12T12:09:09Z
Nano Banana 2 的 5 个神级玩法,还是 AI 生图的神,建议收藏(附提示词)

Nano Banana 2 发布后,用户反馈生成速度有所提升,但图片美学表现不如 Pro 版本。新功能包括全球化海报生成和城市天气视图,支持多种语言翻译。价格更低,用户可生成更多图片,新增的比例选择和图片搜索功能提升了使用体验。整体来看,Nano Banana 2 在稳定性和功能上有所改进,适合设计师使用。

Nano Banana 2 的 5 个神级玩法,还是 AI 生图的神,建议收藏(附提示词)

爱范儿
爱范儿 · 2026-02-28T04:24:36Z
使用扩散生成文本(以及使用LLMs的投资回报)

本期节目包含两次采访。第一部分,Ryan与Inception的CEO Stefano Ermon讨论扩散语言模型的生成速度和准确性。第二部分,Ryan与Roomie的主席Aldo Luevano探讨Roomie在物理和软件AI模型构建中的ROI优先方法,以帮助公司评估机器人和AI的影响。

使用扩散生成文本(以及使用LLMs的投资回报)

Stack Overflow Blog
Stack Overflow Blog · 2026-02-03T08:40:00Z
交互式世界建模新方案!腾讯混元发布世界模型WorldPlay,兼顾实时生成与长期几何一致性;5万条样本!Med-Banana-50K支持增删病灶双向编辑

腾讯混元团队推出的WorldPlay是一个实时交互的世界模型,解决了生成速度与内存占用之间的平衡。该模型通过双重动作表示法、重构上下文记忆机制和情境强迫蒸馏方法,实现了长期几何一致性,能够以24 FPS生成720p高清流媒体视频,展现出优秀的泛化能力。

交互式世界建模新方案!腾讯混元发布世界模型WorldPlay,兼顾实时生成与长期几何一致性;5万条样本!Med-Banana-50K支持增删病灶双向编辑

HyperAI超神经
HyperAI超神经 · 2026-01-06T13:04:18Z
交互式世界建模新方案!腾讯混元发布世界模型WorldPlay,兼顾实时生成与长期几何一致性;5万条样本!Med-Banana-50K支持增删病灶双向编辑

腾讯混元团队推出的世界模型WorldPlay,实现了实时交互式世界建模,解决了生成速度与内存占用的平衡问题。该模型采用双重动作表示法、重构上下文记忆机制和情境强迫蒸馏方法,能够以24 FPS生成720p高清流媒体视频,展现出优秀的泛化能力,为具身智能和游戏开发等领域开辟了新前景。

交互式世界建模新方案!腾讯混元发布世界模型WorldPlay,兼顾实时生成与长期几何一致性;5万条样本!Med-Banana-50K支持增删病灶双向编辑

HyperAI超神经
HyperAI超神经 · 2026-01-05T03:06:38Z
刚刚,OpenAI 版 Nano Banana 发布:奥特曼秒变性感男模|附实测

OpenAI推出的GPT-Image-1.5图像模型具备更精准的编辑能力和更快的生成速度,能够理解复杂指令并保持画面一致性,适用于多种场景。尽管中文表现有待提升,但其图像生成能力显著增强,标志着AI图像工具向实用化转变。

刚刚,OpenAI 版 Nano Banana 发布:奥特曼秒变性感男模|附实测

爱范儿
爱范儿 · 2025-12-17T04:31:20Z

蚂蚁集团赵俊博在MEET2026大会上介绍了扩散模型的优势,指出其可直接修改token,从而提升生成速度和降低计算成本。他们开源了LLaDA 2.0,首次实现千亿参数的扩散语言模型,引发行业关注。

跳过“逐字生成”!蚂蚁集团赵俊博:扩散模型让我们能直接修改Token | MEET2026

量子位
量子位 · 2025-12-12T04:38:27Z
大型语言模型生成优化与成本降低的提示压缩

本文介绍了五种提示压缩技术,以减少大型语言模型(LLM)的令牌数量,提升生成速度和任务质量。这些技术包括语义摘要、结构化提示、相关性过滤、指令引用和模板抽象,旨在提高模型效率和一致性,降低计算成本。

大型语言模型生成优化与成本降低的提示压缩

MachineLearningMastery.com
MachineLearningMastery.com · 2025-12-01T14:08:17Z
来看下我装备了5060TI显卡的gpt-oss模型表现

在3060笔记本上测试gpt-oss时,生成速度为4.66token/s。更换为5060TI后,速度提升至27.91token/s,效果更佳。显存加载显著影响性能,未来可尝试32B模型。

来看下我装备了5060TI显卡的gpt-oss模型表现

Nicksxs's Blog
Nicksxs's Blog · 2025-11-30T13:53:14Z

清华与快手团队推出的SVG模型在训练效率上提升6200%,生成速度提升3500%。该模型通过构建语义与细节融合的特征空间,解决了VAE的语义纠缠问题,支持多任务通用,生成质量和效率显著优于传统方法。

VAE再被补刀!清华快手SVG扩散模型亮相,训练提效6200%,生成提速3500%

量子位
量子位 · 2025-10-28T07:35:11Z

xAI推出了Grok 4 Fast,生成速度达到每秒75个token,比标准版快10倍。用户测试显示其在编程和问答方面表现优异,但在某些情况下准确性仍有问题。Grok 4 Fast适合需要快速结果的用户,尽管与专家模式相比有所妥协。

马斯克的最快AI模型来了

量子位
量子位 · 2025-09-16T03:21:15Z
你的语言模型预知未来:揭示其多标记预测潜力

本文提出了一种新框架,利用自回归语言模型提升生成速度和并行性。关键创新包括掩码输入形式、门控LoRA结构、轻量可学习采样模块、辅助训练损失和投机生成策略。该方法在预训练模型上进行监督微调,生成速度提高近5倍,且质量无损。

你的语言模型预知未来:揭示其多标记预测潜力

Apple Machine Learning Research
Apple Machine Learning Research · 2025-08-08T00:00:00Z

李飞飞团队提出了一种名为“嫁接”的新方法,通过修改预训练模型组件,节省计算资源并验证新架构设计。研究表明,使用不到2%的预训练算力仍能保持模型性能,并提升生成速度,适合资源有限的场景。

李飞飞团队提出架构设计新思路!无需从头训练,直接“嫁接”预训练模型关键组件

量子位
量子位 · 2025-06-20T06:05:40Z

谷歌的Gemini Diffusion模型利用扩散技术,在12秒内生成1万tokens,速度比传统模型快2000倍。该模型通过逐步优化噪声生成文本,支持非因果推理,提升生成质量和一致性。

12秒生成1万token!谷歌推出文本「扩散模型」Gemini Diffusion,研究员:演示都得降速看

量子位
量子位 · 2025-05-22T07:26:27Z

本研究提出了一种新颖的对抗相对对比(ARC)后训练算法,旨在加速文本到音频系统的生成速度,使其在约75毫秒内生成12秒高质量立体声音频,成为行业最快的模型。

Fast Text-to-Audio Generation Based on Adversarial Post-Training

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-13T00:00:00Z

达摩院在ICLR 2025上发布了DyDiT架构,通过智能资源分配将DiT模型的推理算力减少51%,生成速度提升1.73倍,几乎无损生成质量。该架构动态调整计算,解决了传统模型的算力冗余问题,并已开源,适配多种生成任务。

质量无损,算力砍半!达摩院开源视觉生成新架构,出道即SOTA|ICLR 2025

量子位
量子位 · 2025-04-25T06:27:58Z
4o图像生成 - 扩散/变换器交叉趋势?

三月,谷歌和OpenAI推出新图像生成工具,支持连续生成和编辑,文本渲染效果更佳,采用扩散模型与变换器模型结合。二月,Inception Labs与中国团队发布新LLM,应用扩散模型提升生成速度。LLM与图像生成的交叉发展值得关注。

4o图像生成 - 扩散/变换器交叉趋势?

DEV Community
DEV Community · 2025-03-31T07:53:37Z
SGLang与Llama.cpp的快速速度测试

SGLang是一个开源的LLM推理引擎,声称比其他解决方案快2-5倍。与LM Studio相比,SGLang生成速度略快,但模型加载慢且配置复杂。对于本地使用,Llama.cpp更方便,而SGLang更适合多用户生产环境。

SGLang与Llama.cpp的快速速度测试

DEV Community
DEV Community · 2025-02-17T12:03:05Z

DeepSeek V3模型发布,参数量671B,训练成本仅557.6万美元,算力消耗为Llama 3的1/11。性能超越多款顶尖模型,生成速度提升3倍,API价格大幅降低,完全开源,支持FP8和BF16推理,受到广泛关注与测试。

国产之光DeepSeek把AI大佬全炸出来了!671B大模型训练只需此前算力1/10,细节全公开

量子位
量子位 · 2024-12-27T04:46:27Z
  • <<
  • <
  • 1 (current)
  • 2
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码