小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
预填充与解码:大型语言模型推理阶段解析

本文讨论了大型语言模型(LLM)请求的两个阶段:预填充和解码。预填充阶段处理整个提示,受限于计算能力;解码阶段逐个生成令牌,受限于内存带宽。优化策略需根据这两个阶段的特性进行调整,以提高响应速度。使用Redis的语义缓存可以在缓存命中时绕过推理过程,消除预填充和解码的成本。

预填充与解码:大型语言模型推理阶段解析

Redis Blog
Redis Blog · 2026-04-28T00:00:00Z
推测解码:工作原理、应用场景及其在推理架构中的位置

本文讨论了推测解码在大语言模型推理中的应用,旨在加速请求而不影响输出。通过使用小型草稿模型生成多个候选令牌,主模型可以快速验证这些候选,从而提高生成速度。不同变体如EAGLE-3和SuffixDecoding针对不同限制进行了优化,显著提升了速度。推测解码与语义缓存相辅相成,有效降低请求延迟。选择合适的技术与工作负载匹配是实现最佳性能的关键。

推测解码:工作原理、应用场景及其在推理架构中的位置

Redis Blog
Redis Blog · 2026-04-22T00:00:00Z

推测解码是一种加速大模型推理的方法,解决了显存带宽限制问题。通过一次性处理多个token,提升生成效率。经典算法如Medusa和EAGLE通过多头预测和特征自回归优化性能,而Lookahead解码则利用当前模型进行并行预测,无需额外模型。整体上,推测解码显著提高了解码速度和准确性,适用于多种场景。

【大模型基础设施工程】15:推测解码与 MTP

土法炼钢兴趣小组的博客
土法炼钢兴趣小组的博客 · 2026-04-22T00:00:00Z

2026年3月30日,中国互联网协会举办沙龙,探讨AI安全治理新路径,强调技术创新、标准完善、人才培养和行业协同,以应对AI时代的安全挑战,推动网络安全与AI的深度融合。

“政策解码·赋能共赢”沙龙(第一期)聚力创新·AI赋未来在京举行

绿盟科技技术博客
绿盟科技技术博客 · 2026-04-02T09:29:56Z
RADV Vulkan 视频新增低延迟编码/解码选项

Mesa Radeon "RADV" Vulkan 驱动程序新增低延迟视频编解码选项,旨在降低延迟但增加功耗。用户可通过设置环境变量启用该模式,相关功能将于 Mesa 26.1 版本发布。

RADV Vulkan 视频新增低延迟编码/解码选项

实时互动网
实时互动网 · 2026-03-31T02:05:20Z
从提示到预测:理解大型语言模型中的预填充、解码和KV缓存

本文介绍了大型语言模型(LLM)推理的两个阶段:预填充和解码。预填充阶段通过并行处理整个提示,计算并存储每个令牌的键(K)和值(V)。解码阶段逐个生成令牌,使用新令牌的查询(Q)与缓存的键和值进行计算,从而提高解码效率,特别是在处理长提示和生成响应时。

从提示到预测:理解大型语言模型中的预填充、解码和KV缓存

MachineLearningMastery.com
MachineLearningMastery.com · 2026-03-30T20:47:02Z

在潜在客户生成中,表单填写量高并不代表成功,常常伴随低质量客户。专家强调高质量潜在客户的重要性,并指出捕捉客户旅程的每个环节的工具。YouTube可能是一个被忽视的有效广告渠道。

《广告解码》第五集探讨有效潜在客户生成广告的挑战与影响。

The Keyword
The Keyword · 2026-03-25T13:00:00Z
使用 FFmpeg 中的 Vulkan 计算着色器进行视频编码与解码

随着硬件加速芯片的普及,视频编解码问题基本解决,但专业工作流程仍存在性能瓶颈。FFmpeg通过Vulkan Compute在消费级GPU上加速视频编码解码,提高效率,支持多种格式,推动基于计算的编解码器发展。

使用 FFmpeg 中的 Vulkan 计算着色器进行视频编码与解码

实时互动网
实时互动网 · 2026-03-23T03:31:06Z
在消费级笔记本电脑上演示实时 AV2 解码

AV2 规范已发布,AOMedia 成员在 CES 2026 展示了 AV2 解码的实时播放。谷歌和 VideoLAN 在笔记本电脑和浏览器中演示了 AV2 解码,验证了其在消费级硬件上的可行性,后续将专注于优化和扩展平台支持。

在消费级笔记本电脑上演示实时 AV2 解码

实时互动网
实时互动网 · 2026-03-20T03:20:23Z
ESP32-S3 JPEG 实测:从解码库对比到 DMA 优化,最终撞上 SPI 上限

在ESP32-S3上进行JPEG解码性能测试,结果显示ESP_NEW_JPEG在240×240分辨率下可达到约40 FPS。通过优化DMA传输,实现解码与传输并行,显著提升了性能。测试表明,系统瓶颈主要在于上屏时间,而非解码速度,整体提升FPS的空间有限。

ESP32-S3 JPEG 实测:从解码库对比到 DMA 优化,最终撞上 SPI 上限

Architecting Life
Architecting Life · 2026-03-15T12:28:36Z
【音视频】C++ 实现视频编码与解码

在Android NDK开发中,使用C++调用MediaCodec进行视频编码和解码。编码流程包括初始化编码器、配置参数、输入YUV数据并获取H.264输出;解码流程则是将H.264比特流转换为可显示的像素,需配置解码器并处理输出,注意数据格式和异步处理。

【音视频】C++ 实现视频编码与解码

实时互动网
实时互动网 · 2026-03-06T02:55:43Z
ESP32-S3 + Arduino 各种 JPEG 解码库速度对比,到底哪个才是最快的?

本文讨论了在ESP32-S3上进行JPEG图片解码的性能测试。比较了ESP32_NEW_JPEG和JPEGDEC两种解码库,结果显示ESP32_NEW_JPEG在低分辨率下表现优异,而JPEGDEC在使用SIMD指令后也有良好表现。解码速度和内存占用是选择解码库的重要因素,建议根据需要选择合适的解码库以优化性能。

ESP32-S3 + Arduino 各种 JPEG 解码库速度对比,到底哪个才是最快的?

Architecting Life
Architecting Life · 2026-03-03T13:30:21Z

文章探讨了高互动文章的特征,强调细节、真实脆弱感和可行动性的重要性。具体信息增强信任,脆弱感促进共鸣,实用内容提高互动率。作者认为,真实的人类经验在AI生成内容中更具价值。

年度征文|LLM 眼中的好文章:少数派 2025 热门内容解码

少数派
少数派 · 2026-02-28T05:47:35Z

谷歌更新了搜索广告体验,旨在为用户和广告商创造价值。文章讨论了广告设计与测试过程,强调数据点、用户自主权的重要性,以及广告商需关注资产广度以满足复杂查询的意图。

《广告解码》第三集探讨了谷歌如何重新构想搜索广告体验,以为用户和广告商创造价值。

The Keyword
The Keyword · 2026-02-25T14:00:00Z
FFmpeg 获得实验性 xHE-AAC MPS212 解码支持

FFmpeg 开发者 Lynne 为 FFmpeg 7.1 版本增加了对 xHE-AAC MPS212 音频解码的支持,包含 MPEG-H 环绕声和 2-1-2 混音模式,目前仍处于实验阶段。

FFmpeg 获得实验性 xHE-AAC MPS212 解码支持

实时互动网
实时互动网 · 2026-02-24T02:10:23Z
AMD 视频解码现已统一于 RadeonSI 和 RADV Vulkan 视频之间

Mesa 26.1-devel 版本合并了 RadeonSI 和 RADV 驱动程序的视频解码统一实现,提升了 AMD 视频加速支持,使 RADV Vulkan 视频可在旧款 Hawaii GPU 上运行,减少了约1400行代码,预计第二季度正式发布。

AMD 视频解码现已统一于 RadeonSI 和 RADV Vulkan 视频之间

实时互动网
实时互动网 · 2026-02-13T02:18:56Z
机器学习从业者的推测解码指南

本文介绍了推测解码的工作原理及其在大型语言模型推理中的应用。推测解码通过小型草稿模型生成多个候选标记,并利用大型目标模型并行验证,从而显著提高推理速度,达到2-3倍的加速效果。该方法有效解决了内存带宽瓶颈问题,适用于翻译、摘要等任务。选择合适的草稿模型是实现最佳效果的关键。

机器学习从业者的推测解码指南

MachineLearningMastery.com
MachineLearningMastery.com · 2026-02-11T11:00:11Z
Shotcut 视频编辑器现在默认使用硬件解码,Linux 系统上的 NVIDIA 显卡除外

Shotcut 26.1 发布,新增 GPU 硬件加速视频解码(Linux 上的 NVIDIA GPU 除外),支持多平台硬件解码,性能显著提升。视频导出时默认禁用硬件解码器。源代码可在 GitHub 获取。

Shotcut 视频编辑器现在默认使用硬件解码,Linux 系统上的 NVIDIA 显卡除外

实时互动网
实时互动网 · 2026-02-02T02:06:01Z

谷歌广告播客分享了2026年营销成功的关键:从繁琐工作转向高层战略,适应搜索行为变化,利用AI工具提升广告效果,跨平台数据助力受众发现,创意成为活动成功的核心。

《广告解码》呈现三种AI策略,助力2026年营销未来的掌控。

The Keyword
The Keyword · 2026-01-28T14:00:00Z

Ads Decoded播客由广告产品联络人Ginny Marvin主持,旨在为广告商解答问题,连接营销人员与产品团队,分享深入见解。

我们推出了《广告解码》播客,以连接广告商与构建Google Ads的团队。

The Keyword
The Keyword · 2026-01-28T14:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码