小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
在Databricks上通过提示缓存加速开源模型的LLM推理

在旧金山举行的全球最大数据、应用和人工智能活动中,研究人员探讨了提示缓存技术在大型语言模型(LLM)推理中的应用。提示缓存可以消除重复请求的冗余,提高模型在特定领域的质量,并降低计算成本。Databricks为开源模型提供此功能,确保安全性并自动优化性能,提升推理效率。

在Databricks上通过提示缓存加速开源模型的LLM推理

Databricks
Databricks · 2026-05-22T20:00:00Z
协作AI功能的产品实验:基于Python的LLM工具中的集群随机化

在协作环境中,用户之间的相互影响会使传统的用户级A/B测试失效。文章探讨了通过集群随机化来解决这一问题,确保整个团队共同接受或拒绝AI功能,从而减少干扰。通过分析50,000用户的合成数据集,展示了如何估计直接效果和溢出效果,并强调了在协作产品实验中采用集群随机化的重要性。

协作AI功能的产品实验:基于Python的LLM工具中的集群随机化

freeCodeCamp.org
freeCodeCamp.org · 2026-05-22T19:15:56Z
网易游戏如何在Kubernetes上实现30秒的LLM冷启动

在网易游戏,我们发现大语言模型(LLM)推理的关键在于数据传输速度。通过使用Fluid,我们将模型加载时间从42分钟缩短至3分钟,显著提高了推理效率。同时,Fluid支持跨命名空间共享模型,减少内存浪费,简化操作,使得在Kubernetes上进行LLM推理变得可行且高效。

网易游戏如何在Kubernetes上实现30秒的LLM冷启动

Cloud Native Computing Foundation
Cloud Native Computing Foundation · 2026-05-21T11:00:00Z
Modular:为何LLM推理需要一种新型路由器 - 第二部分

本文讨论了Modular Cloud的路由系统数据层,强调高效处理实时推理请求的重要性。通过分片位图和斐波那契哈希,系统能够在微秒级别内快速查询缓存状态,确保低延迟推理请求。同时,设计考虑了并发事件流的实时更新和主机生命周期管理,以优化性能和响应速度。

Modular:为何LLM推理需要一种新型路由器 - 第二部分

Modular Blog
Modular Blog · 2026-05-21T00:00:00Z
大脑其实像LLM持续预测下一秒:你每秒都在重新生成自己

本文探讨大脑作为“自回归生成器”的理论,认为大脑通过不断预测下一秒的体验状态,整合记忆、注意力和知觉等功能为统一的预测过程。知觉是主动生成的,记忆是重新生成的,意识则是这一过程的主观体验。这一理论挑战了传统认知心理学,提供了新的理解框架。

大脑其实像LLM持续预测下一秒:你每秒都在重新生成自己

极道
极道 · 2026-05-20T12:53:00Z

本文介绍了2026年免费LLM API的指南,涵盖13家提供商,如Google Gemini和OpenAI,提供AI网关高级玩法和本地模型方案,帮助用户以零成本实现生产工作流。

2026 年免费 LLM API 完全指南:13 家提供商 + AI 网关高级玩法 + 本地模型

夜法之书
夜法之书 · 2026-05-19T02:00:00Z
通过LLM评估优化实验——一个漏斗,而非分叉

LLM评估是一种新工具,能够快速、低成本地评估内容的相关性和质量。Spotify的实验表明,评估与实验应结合使用,评估帮助筛选候选项,实验验证用户反应。通过不断调整评估,提升其与在线结果的匹配度,确保系统的有效性和用户体验。

通过LLM评估优化实验——一个漏斗,而非分叉

Spotify Engineering
Spotify Engineering · 2026-05-18T13:27:23Z
LeCun炮轰Hinton:他认可LLM就是想摆烂退休了!

Lecun与Hinton对大型语言模型(LLM)的看法存在显著分歧。Hinton认为LLM接近人类智能,而Lecun则认为LLM并非通往人类智能的路径,强调世界模型的重要性,认为智能系统需要预测行为后果的能力。Lecun最近离开Meta,创办了AMI,专注于现实世界的AI应用,认为突破性研究需要优秀人才和资源支持。

LeCun炮轰Hinton:他认可LLM就是想摆烂退休了!

量子位
量子位 · 2026-05-18T05:59:37Z

文章探讨了如何将大型语言模型(LLM)视为具备人类特征的合作伙伴,以提升Agent工程的效率。强调认知对齐、记忆解耦、视觉感知优化和反馈机制的重要性,建议为LLM构建拟人化的交互环境,避免传统的机械指令模式。通过科学的工作流程和工具链设计,Agent可以更有效地解决问题,实现更高的工作效率。

把 LLM ĺ˝“ćˆâ€œäşşâ€ďźŒć‰ć˜Ż Agent ĺˇĽç¨‹čż›é˜śçš„čľˇç‚š

HikariLan's Blog
HikariLan's Blog · 2026-05-17T13:46:11Z

该文章讨论了在rust-lang/rust GitHub项目中添加大型语言模型(LLM)政策的提议,主要包括禁止评论LLM的社会经济影响、环境影响、版权状态及道德判断。管理团队将协助执行这些规则。

为rust-lang/rust添加大型语言模型(LLM)政策

Drew DeVault's blog
Drew DeVault's blog · 2026-05-15T00:00:00Z

Amit Navindgi discusses the systematic shift at Zoox from fragmented documentation to an AI-driven ecosystem. He explains how they built "Cortex," a secure platform integrating RAG, multi-modal...

Presentation: Accelerating LLM-Driven Developer Productivity at Zoox

InfoQ
InfoQ · 2026-05-14T13:05:00Z
使用合成控制进行产品实验:Python中全球LLM发布的因果推断

在产品实验中,全球发布模型升级可能导致测量陷阱,缺乏对照组。合成控制方法通过构建未处理单位的加权组合,帮助数据科学家在没有对照组的情况下进行因果推断。本文介绍了如何使用Python实现合成控制,验证其有效性,并讨论常见的失败模式及应对策略。

使用合成控制进行产品实验:Python中全球LLM发布的因果推断

freeCodeCamp.org
freeCodeCamp.org · 2026-05-12T04:55:04Z

本文探讨了如何利用大语言模型(LLM)管理安全开发规范,通过建立llm-wiki中间层,将原始文档编译成结构化数据,以提升文档的可查找性和维护性。作者分享了实现过程,包括生成操作手册、收集原始素材、让LLM生成Wiki层以及最终规范文档的生成。经过多轮迭代和细化,最终形成了高效的知识管理系统,显著改善了文档的使用体验和更新机制。

用LLM管理安全开发规范:一次llm-wiki实践

Mobility
Mobility · 2026-05-11T07:38:16Z

本文探讨了如何利用大语言模型(LLM)管理安全开发规范。通过建立一个llm-wiki中间层,将原始文档编译成结构化数据,生成操作手册CLAUDE.md,收集素材,并最终输出规范文档。这种方法提高了文档管理效率,确保信息的可持续更新和交叉引用,解决了传统文档管理中的问题。

用LLM管理安全开发规范:一次llm-wiki实践

Mobility
Mobility · 2026-05-11T07:38:16Z

本文讨论了利用大型语言模型(LLM)重构遗留代码的经验与教训,指出了三个主要陷阱:未测试即重构、过度工程化和全盘重写。重构前应编写特征测试以记录当前行为,避免系统崩溃。重构应逐步进行,确保每个模块正常运行。作者提出了一套五步方法,强调保持可逆性和清晰的工程纪律。

读:用 LLM 重构遗留代码——三个陷阱与一套方法

暗无天日
暗无天日 · 2026-05-10T00:00:00Z
上下文修剪:在不损失质量的情况下减少LLM令牌

上下文修剪是从大型语言模型(LLM)输入中去除低价值内容,以降低成本并提高输出质量。它属于提示压缩,旨在减少输入长度和提高处理效率。修剪方法包括标记级、句子级和基于注意力的修剪。研究表明,适度修剪可以改善LLM性能,尤其与语义缓存结合使用时效果更佳。

上下文修剪:在不损失质量的情况下减少LLM令牌

Redis Blog
Redis Blog · 2026-05-09T00:00:00Z
回归不连续性下的产品实验:LLM置信度阈值如何在Python中创造自然实验

本文探讨了如何使用回归不连续性设计(RDD)评估基于置信度的路由模型的因果效应。通过分析在0.85阈值附近的查询,作者展示了利用Python进行数据分析,验证高置信度查询是否能提高任务完成率。文章强调了选择带宽和模型规格的重要性,并提供了多种检验方法以确保结果的稳健性,最终证明RDD是分析AI特征的有效工具,尤其在存在明确阈值的情况下。

回归不连续性下的产品实验:LLM置信度阈值如何在Python中创造自然实验

freeCodeCamp.org
freeCodeCamp.org · 2026-05-08T15:33:41Z

同一个需求(比如让 AI 读 PDF),有两种架构来实现:直接调 LLM API 自己管工具循环,或者用 MCP 协议把工具暴露成独立服务。本文对比两种路线的架构差异、代码实现和选型依据,解释 MCP 的工具发现、复用和标准化到底解决了什么问题。

读:理解 MCP 架构——LLM 直接调 API 与 MCP 协议的对比

暗无天日
暗无天日 · 2026-05-05T00:00:00Z

文章探讨了大型语言模型(LLM)在生产环境中的六种失败原型:自信胡诌、上下文失忆、无限循环、脆弱工具调用、过度拒绝和Token燃烧。基准测试无法预测多轮对话中的问题,导致模型在实际应用中频繁出错。通过案例分析,强调选择模型时应关注其失败模式的可接受性,并提出“失败预算”概念,以量化不同场景的容忍度。

读:LLM 生产环境六种失败原型——基准测试无法预测的那些故障

暗无天日
暗无天日 · 2026-05-01T00:00:00Z
基于倾向评分的产品实验:Python中LLM特征的因果推断

文章讨论了在基于大型语言模型(LLM)的产品中,用户选择新功能(如AI助手)时的偏差问题。重度用户更倾向于尝试新功能,导致比较结果失真。为解决这一问题,文章介绍了倾向评分方法,通过统计工具消除选择偏差,准确评估功能效果,并提供具体步骤和代码示例,帮助数据科学家在产品实验中应用这些方法。

基于倾向评分的产品实验:Python中LLM特征的因果推断

freeCodeCamp.org
freeCodeCamp.org · 2026-04-30T23:01:26Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码