小红花·文摘 - 小红花技术领袖俱乐部

让Claude代码用穴居人语言表达可能并不会像你想的那样节省很多令牌

让Claude代码用穴居人语言表达可能并不会像你想的那样节省很多令牌

The New Stack ·

与代理像穴居人一样交流真的能节省65%的令牌吗？我们进行了测试

与代理像穴居人一样交流真的能节省65%的令牌吗？我们进行了测试

The JetBrains Blog ·

令牌效率：将更多信号引入上下文窗口

令牌效率：将更多信号引入上下文窗口

Redis Blog ·

NVIDIA的推理软件栈如何驱动最低令牌成本

NVIDIA的推理软件栈如何驱动最低令牌成本

NVIDIA Blog ·

Vercel Agent 更新了定价

Vercel Agent 更新了定价

Vercel News ·

在AWS上为Nakama游戏服务器实现双重令牌认证与Amazon Cognito

在AWS上为Nakama游戏服务器实现双重令牌认证与Amazon Cognito

AWS Architecture Blog ·

自定义OIDC令牌受众

自定义OIDC令牌受众

Vercel News ·

从每个令牌中获取更多：Copilot 如何改善上下文处理和模型路由

The GitHub Blog ·

提高GitHub Copilot中的令牌效率

提高GitHub Copilot中的令牌效率

Visual Studio Code - Code Editing. Redefined. ·

人工智能中的上下文窗口：为何每个令牌都是预算决策

人工智能中的上下文窗口：为何每个令牌都是预算决策

Redis Blog ·

从GPU到令牌：AI基础设施的8层可观察性架构

从GPU到令牌：AI基础设施的8层可观察性架构

云原生 ·

停止粘贴令牌：JetBrains IDE插件的OAuth2登录

停止粘贴令牌：JetBrains IDE插件的OAuth2登录

The JetBrains Blog ·

Vercel Blob 现已支持 OIDC 认证

Vercel Blob 现已支持 OIDC 认证

Vercel News ·

防止令牌盗窃

防止令牌盗窃

Vercel News ·

令牌选择的统计：Logits、温度与Top-P采样详解

令牌选择的统计：Logits、温度与Top-P采样详解

MachineLearningMastery.com ·

上下文修剪：在不损失质量的情况下减少LLM令牌

上下文修剪：在不损失质量的情况下减少LLM令牌

Redis Blog ·

TOON（面向令牌的对象表示法）是一种新格式，旨在减少大型语言模型中的JSON令牌开销。它通过一次声明字段并以紧凑的表格形式流式传输数据，消除了重复结构。TOON适用于包含重复结构记录的情况，如支持票和目录行，但在深度嵌套或小型数据时效果不佳。建议在应用中保留JSON，使用TOON作为输入，输出时再转换回JSON，以提高效率和可靠性。

停止浪费令牌：大型语言模型管道中JSON的更智能替代方案

KDnuggets ·

文章讨论了文本分词器如何根据常见模式拆分文本，并影响计费。人类的打字习惯（如拼写错误、简写和填充词）会改变令牌数量，但意图保持不变。不同的拼写和输入习惯导致不同的令牌计数，从而影响成本。人类优化输入速度，而分词器优化常见文本，二者存在不一致。

人类打字习惯与令牌计数

Scramblings ·

提升GitHub代理工作流中的令牌效率

The GitHub Blog ·

Gemma 4推出了多令牌预测（MTP）模型，采用专门的推测解码架构，实现了三倍的速度提升，同时保持输出质量不变。MTP通过将重型目标模型与轻型草拟模型配对，减少延迟，提升AI应用在本地和边缘设备上的性能。MTP草拟器现已开源，开发者可在Hugging Face等平台下载和实验。

加速Gemma 4：通过多令牌预测草拟器实现更快的推理

The Keyword ·