小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
人工智能中的上下文窗口:为何每个令牌都是预算决策

Redis Iris 提供实时上下文管理,优化大语言模型(LLM)的性能。通过精简上下文窗口,减少不必要的令牌使用,降低成本并提高推理质量。使用 LangCache 进行语义缓存,显著降低推理费用,Redis 的快速存储确保上下文检索高效,适用于多种应用场景。

人工智能中的上下文窗口:为何每个令牌都是预算决策

Redis Blog
Redis Blog · 2026-06-10T00:00:00Z
从GPU到令牌:AI基础设施的8层可观察性架构

GPU利用率并不是最终目标,关键指标是令牌成本。近年来,AI基础设施中的GPU调度成为热门话题,旨在提高GPU利用效率。随着企业开始运行生产级大型语言模型服务,新的现象也随之出现。

从GPU到令牌:AI基础设施的8层可观察性架构

云原生
云原生 · 2026-06-09T03:31:16Z
停止粘贴令牌:JetBrains IDE插件的OAuth2登录

本文介绍了如何在JetBrains IDE插件中实现OAuth2登录。通过浏览器处理用户登录,插件接收回调并存储访问令牌,避免用户手动输入。使用PKCE增强安全性,确保令牌的临时性和有限性。插件通过PasswordSafe安全存储令牌,简化后续API调用,提升用户体验和安全性。

停止粘贴令牌:JetBrains IDE插件的OAuth2登录

The JetBrains Blog
The JetBrains Blog · 2026-06-01T13:46:25Z
Vercel Blob 现已支持 OIDC 认证

Vercel Blob现已支持OIDC认证,并成为新项目的默认设置。OIDC令牌短期有效并自动轮换,无需长期令牌。升级现有存储时,需更新项目并选择升级到OIDC。使用OIDC认证上传文件时,Vercel CLI也支持无长期令牌的操作。

Vercel Blob 现已支持 OIDC 认证

Vercel News
Vercel News · 2026-06-01T00:00:00Z
防止令牌盗窃

文章讨论了AI推理盗窃的风险,强调保护AI端点的重要性。推理盗窃是指未经授权使用他人付费AI推理,攻击者通过伪装和代理获取大量请求,导致高额费用。建议对每个请求进行验证,并使用Vercel的BotID进行深度分析,以防止此类攻击,确保安全并降低成本。

防止令牌盗窃

Vercel News
Vercel News · 2026-05-29T04:00:00Z
令牌选择的统计:Logits、温度与Top-P采样详解

本文探讨了大语言模型(LLM)中令牌选择的统计过程,包括logits、温度和top-p采样。logits是模型输出的原始分数,温度用于调整概率分布的平滑程度,top-p则限制候选令牌的范围。通过这些参数的组合,模型在生成输出时能够平衡确定性与创造性。开发者需根据不同应用场景选择合适的温度和top-p值,以实现最佳效果。

令牌选择的统计:Logits、温度与Top-P采样详解

MachineLearningMastery.com
MachineLearningMastery.com · 2026-05-27T12:00:05Z
上下文修剪:在不损失质量的情况下减少LLM令牌

上下文修剪是从大型语言模型(LLM)输入中去除低价值内容,以降低成本并提高输出质量。它属于提示压缩,旨在减少输入长度和提高处理效率。修剪方法包括标记级、句子级和基于注意力的修剪。研究表明,适度修剪可以改善LLM性能,尤其与语义缓存结合使用时效果更佳。

上下文修剪:在不损失质量的情况下减少LLM令牌

Redis Blog
Redis Blog · 2026-05-09T00:00:00Z

TOON(面向令牌的对象表示法)是一种新格式,旨在减少大型语言模型中的JSON令牌开销。它通过一次声明字段并以紧凑的表格形式流式传输数据,消除了重复结构。TOON适用于包含重复结构记录的情况,如支持票和目录行,但在深度嵌套或小型数据时效果不佳。建议在应用中保留JSON,使用TOON作为输入,输出时再转换回JSON,以提高效率和可靠性。

停止浪费令牌:大型语言模型管道中JSON的更智能替代方案

KDnuggets
KDnuggets · 2026-05-08T14:00:30Z

文章讨论了文本分词器如何根据常见模式拆分文本,并影响计费。人类的打字习惯(如拼写错误、简写和填充词)会改变令牌数量,但意图保持不变。不同的拼写和输入习惯导致不同的令牌计数,从而影响成本。人类优化输入速度,而分词器优化常见文本,二者存在不一致。

人类打字习惯与令牌计数

Scramblings
Scramblings · 2026-05-08T04:30:00Z
提升GitHub代理工作流中的令牌效率

本文讨论了审查AI和机器学习生成的拉取请求,包括审查重点、潜在问题及技术债务的识别。同时介绍了为Github Copilot构建“信任层”的方法,以避免脆弱的脚本和黑箱判断。最后提到OpenClaw活动,鼓励参与者现场或通过Twitch观看直播。

提升GitHub代理工作流中的令牌效率

The GitHub Blog
The GitHub Blog · 2026-05-07T23:00:00Z

Gemma 4推出了多令牌预测(MTP)模型,采用专门的推测解码架构,实现了三倍的速度提升,同时保持输出质量不变。MTP通过将重型目标模型与轻型草拟模型配对,减少延迟,提升AI应用在本地和边缘设备上的性能。MTP草拟器现已开源,开发者可在Hugging Face等平台下载和实验。

加速Gemma 4:通过多令牌预测草拟器实现更快的推理

The Keyword
The Keyword · 2026-05-05T16:00:00Z

Claude Code的高成本主要源于上下文复杂性。为高效使用Claude Code,可以采取以下七种方法:1. 根据任务复杂度选择模型;2. 保持CLAUDE.md简洁;3. 将冗长工作委托给子代理;4. 精确指定文件和行范围;5. 主动使用/compact;6. 检查/context以优化;7. 简化工具设置。优化上下文管理可有效降低使用成本。

减少Claude Code令牌使用的7种实用方法

KDnuggets
KDnuggets · 2026-05-04T12:00:47Z
将AI令牌使用量减少96%?AWS Strands Agents是如何做到的

AWS开发者倡导者摩根·威利斯讨论了Strands Agents的开源框架,该框架自发布以来已下载超过1400万次。她演示了如何通过意图驱动的工具将API调用从五次减少到一次,从而显著降低令牌使用量。威利斯强调,专用代理在任务精准性和效率上优于通用代理。

将AI令牌使用量减少96%?AWS Strands Agents是如何做到的

The New Stack
The New Stack · 2026-04-29T18:52:32Z
重新思考AI总拥有成本:为什么每个令牌的成本是唯一重要的指标

在AI基础设施评估中,成本每个令牌是关键指标。企业应关注令牌输出而非仅计算成本。NVIDIA的Blackwell平台在每瓦特令牌输出上优于Hopper,显著降低了成本。选择AI基础设施时,需重视实际输出和成本效率,以实现盈利和规模化。

重新思考AI总拥有成本:为什么每个令牌的成本是唯一重要的指标

NVIDIA Blog
NVIDIA Blog · 2026-04-15T15:00:26Z

Apache 服务器开发者因操作失误泄露 GitHub 令牌,GitHub 及时检测并吊销该令牌,通知开发者更换,从而降低安全风险。

Apache项目开发者提交代码时不慎泄露GitHub令牌 但并非AI造成的问题

蓝点网
蓝点网 · 2026-04-09T07:09:24Z
TTFT的含义:首次令牌时间对您的大型语言模型应用程序的启示

TTFT(首次令牌时间)是评估聊天机器人响应速度的重要指标,直接影响用户体验。它包括网络延迟、请求排队时间和模型处理时间。通过缓存、压缩提示和改进基础设施可以优化TTFT,从而提升用户满意度。

TTFT的含义:首次令牌时间对您的大型语言模型应用程序的启示

Redis Blog
Redis Blog · 2026-04-02T00:00:00Z
大型语言模型中的令牌化:每位人工智能应用开发者需要了解的内容

向大型语言模型(LLM)发送提示时,文本会被分割成令牌,这影响成本、响应速度和上下文容量。令牌化分为四个阶段,模型基于令牌处理文本。选择合适的令牌化方法(如子词令牌化)可提高效率,理解令牌化有助于优化应用性能和成本,管理上下文预算至关重要。

大型语言模型中的令牌化:每位人工智能应用开发者需要了解的内容

Redis Blog
Redis Blog · 2026-04-02T00:00:00Z
Portkey公司在每日处理两万亿个令牌后开源其AI网关

Portkey公司开源AI网关和MCP网关,旨在为企业提供治理、可观察性和成本控制,支持每日处理两万亿个令牌,帮助企业管理AI流量,避免预算超支和合规问题。Portkey强调基础设施应免费,智能代理是关键技术。

Portkey公司在每日处理两万亿个令牌后开源其AI网关

The New Stack
The New Stack · 2026-03-31T19:53:03Z
如何在FastAPI中实现令牌桶速率限制

本文介绍如何在FastAPI中实现Token Bucket算法来控制API请求速率,防止服务过载。内容包括创建速率限制中间件、用户跟踪和测试,最终实现可应用于任何FastAPI项目。

如何在FastAPI中实现令牌桶速率限制

freeCodeCamp.org
freeCodeCamp.org · 2026-03-27T21:36:52Z
认证令牌不是数据契约

认证令牌用于验证调用者的授权,不应依赖其内容,因其可能随时更改或不可读。今夏将进一步加密令牌,依赖解码令牌的应用将受到影响。应使用Azure DevOps REST API获取数据,令牌仅用于验证和授权。

认证令牌不是数据契约

Azure DevOps Blog
Azure DevOps Blog · 2026-03-18T18:46:49Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码