小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
[MAF预定义ChatClient中间件-03]CachingChatClient——利用缓存省钱省时间 - Artech

CachingChatClient是一个中间件,用于缓存LLM调用结果,减少重复调用的时间和费用。它通过检查缓存返回相同输入的响应,若不存在则调用LLM并存储结果。DistributedCachingChatClient是其具体实现,利用IDistributedCache作为缓存存储,确保相同输入得到相同输出,提高效率。

[MAF预定义ChatClient中间件-03]CachingChatClient——利用缓存省钱省时间 - Artech

Artech
Artech · 2026-06-05T00:39:00Z
模块化:为什么LLM推理需要一种新型路由器 - 第三部分

Modular Cloud的路由层通过准备、过滤、评分、选择和执行五个阶段实现高效请求处理。该框架支持可组合插件,快速实现新路由优化,适应不同工作负载需求。通过共享上下文,分散的预填充和解码流程可并行选择,提高效率。

模块化:为什么LLM推理需要一种新型路由器 - 第三部分

Modular Blog
Modular Blog · 2026-06-05T00:00:00Z
使用Scikit-LLM与开源语言模型

本文介绍如何使用Ollama本地托管的开源语言模型(如Llama 3、Mistral和Gemma)进行文本分类,避免支付API费用。内容包括Ollama的安装、Scikit-LLM库的配置,以及构建零样本文本分类器的步骤。通过简单的Python代码,用户可以实现模型的训练和预测,展示如何高效使用大型语言模型。

使用Scikit-LLM与开源语言模型

MachineLearningMastery.com
MachineLearningMastery.com · 2026-06-04T12:55:34Z
LLM网关模式:每个基于Kubernetes的AI应用为何都需要它

LLM网关模式是一种架构方法,通过集中代理服务管理所有LLM API流量,解决了安全、成本和可见性问题。它简化了API密钥管理、请求路由和故障处理,提升了系统的可扩展性和可靠性。使用Kubernetes部署LLM网关可以有效监控和控制成本,避免服务间的混乱和依赖锁定。

LLM网关模式:每个基于Kubernetes的AI应用为何都需要它

freeCodeCamp.org
freeCodeCamp.org · 2026-06-03T17:12:17Z
[MAF预定义ChatClient中间件-01]LoggingChatClient——在调用LLM前后输出日志 - Artech

LoggingChatClient是一个IChatClient中间件,用于记录调用日志,帮助调试和监控Agent行为。它记录输入、输出及时间戳信息,并支持不同日志级别的设置。通过UseLogging方法,可以轻松注册该中间件并控制日志输出。

[MAF预定义ChatClient中间件-01]LoggingChatClient——在调用LLM前后输出日志 - Artech

Artech
Artech · 2026-06-03T00:53:00Z
Scikit-LLM与传统文本分类器的比较:何时应使用LLM?

本文比较了三种文本分类方法:传统的TF-IDF与逻辑回归、基于BART的零-shot分类和使用scikit-LLM的零-shot分类。研究表明,scikit-LLM在分类准确性(0.86-0.87)和速度上优于其他方法,适合处理数据量小且需要深度语言理解的任务。

Scikit-LLM与传统文本分类器的比较:何时应使用LLM?

MachineLearningMastery.com
MachineLearningMastery.com · 2026-06-02T12:00:18Z

Juncture 是 LangGraph 的 Rust 实现,旨在将核心编程模型移植到 Rust,提供编译期安全和多核并行。它支持人机协作、流式模式和跨线程存储,基准测试显示其性能显著优于 LangGraph。目前项目处于早期阶段,欢迎反馈。

Juncture -- LangGraph 的 Rust 实现,用于构建 LLM 智能体应用的状态机框

Rust.cc
Rust.cc · 2026-06-02T09:16:57Z
推理成本:前缀感知路由如何消除大规模LLM的隐性费用

推理需求快速增长,预计到2030年将占全球AI计算的主要部分。许多团队未能有效利用计算资源,导致重复计算浪费。DigitalOcean通过前缀感知路由和缓存技术优化推理性能,提高缓存命中率,降低计算成本,并将在Serverless Inference中推广,帮助用户节省计算资源。

推理成本:前缀感知路由如何消除大规模LLM的隐性费用

The DigitalOcean Blog
The DigitalOcean Blog · 2026-06-01T19:30:00Z

本文记录了在Mac Mini上安装和配置本地大模型工具的过程,重点介绍了如何通过Ollama运行LLM模型,并结合Dify搭建私有知识库,支持网页抓取和文件上传,实现个性化的知识检索和生成。

笔记:在 Mac Mini 本地跑 LLM 大模型

四火的唠叨
四火的唠叨 · 2026-06-01T04:03:31Z
[MAF的Agent管道详解-05]对话历史的持久化和输入输出的增强 - Artech

ChatClientAgent封装了IChatClient对象,提供与大型语言模型(LLM)交互的能力。其响应质量受输入消息和配置选项的影响。用户可以通过ChatHistoryProvider和AIContextProvider定制输入和处理LLM返回的结果,前者管理对话历史,后者处理消息和选项。系统提供多种内置实现,以支持灵活的对话管理和上下文处理。

[MAF的Agent管道详解-05]对话历史的持久化和输入输出的增强 - Artech

Artech
Artech · 2026-05-30T01:14:00Z
[MAF的Agent管道详解-04]如何让LLM按照要求的结构输出数据? - Artech

本文介绍了如何使用IChatClient的GetResponseAsync<T>方法提取个人信息。通过创建OpenAIClient的IChatClient对象,可以从文本中提取信息并生成Profile对象。示例中定义了Profile类,并通过调用GetResponseAsync<Profile>方法获取响应,验证提取的信息是否正确。

[MAF的Agent管道详解-04]如何让LLM按照要求的结构输出数据? - Artech

Artech
Artech · 2026-05-29T00:30:00Z
[MAF的Agent管道详解-03]连接LLM的IChatClient对象 - Artech

本文介绍了如何使用IChatClient对象与大型语言模型(LLM)进行交互。通过OpenAIClient和AzureOpenAIClient,可以创建IChatClient对象,并获取天气信息以提供穿搭建议。示例中,用户询问苏州天气,LLM根据天气生成了穿搭建议,强调面料选择和搭配技巧。

[MAF的Agent管道详解-03]连接LLM的IChatClient对象 - Artech

Artech
Artech · 2026-05-28T00:52:00Z
大规模可靠的LLM推理

在数据、应用和人工智能大会上,Databricks分享了构建可靠LLM推理基础设施的经验。为应对日益增长的推理需求,确保系统的可靠性和低延迟至关重要。通过动态路由和自动扩展技术,Databricks优化了资源利用,显著提升了处理能力和效率,并改进了多模态请求的处理,增强了系统整体性能。

大规模可靠的LLM推理

Databricks
Databricks · 2026-05-27T20:20:00Z

文章探讨了大语言模型(LLM)在写作中的应用及局限性。作者指出,模型的微调可能导致输出内容同质化,影响语言表达的多样性。使用LLM时,需提供丰富输入以避免低质量文本,并建议创作后进行自我审查,以保持个人风格。整体而言,LLM的使用需谨慎,以免依赖导致创作能力下降。

为什么没人会喜欢你用 LLM 写出来的东西?

少数派
少数派 · 2026-05-27T03:31:24Z

当前高端NVIDIA显卡及其服务器和电力成本高昂,尤其在运行大型模型时。苹果硬件和DGX Spark是可行的替代方案。Mac Studio M3 Ultra在处理速度上表现尚可,但未来本地推理的成本和内存短缺令人担忧。使用多台MacBook M5 Max进行分布式推理可能是一个有趣的方向,结合不同模型的优势可能提高性能。

在DwarfStar中分布式推理LLM

<antirez>
<antirez> · 2026-05-25T14:54:59Z

本文探讨了大型语言模型(LLM)的工作原理,类比于19世纪的差分机。LLM通过自回归机制动态生成输出,结合指令和数据。文章分析了RNN与Transformer的优缺点,强调Transformer在并行计算上的优势,并指出LLM在本质上是现代差分机,探讨了其在AI代理中的应用及记忆系统的重要性。

理解LLM的范式——它就是个差分机?

Est's Blog
Est's Blog · 2026-05-25T03:57:00Z
在Databricks上通过提示缓存加速开源模型的LLM推理

在旧金山举行的全球最大数据、应用和人工智能活动中,研究人员探讨了提示缓存技术在大型语言模型(LLM)推理中的应用。提示缓存可以消除重复请求的冗余,提高模型在特定领域的质量,并降低计算成本。Databricks为开源模型提供此功能,确保安全性并自动优化性能,提升推理效率。

在Databricks上通过提示缓存加速开源模型的LLM推理

Databricks
Databricks · 2026-05-22T20:00:00Z
协作AI功能的产品实验:基于Python的LLM工具中的集群随机化

在协作环境中,用户之间的相互影响会使传统的用户级A/B测试失效。文章探讨了通过集群随机化来解决这一问题,确保整个团队共同接受或拒绝AI功能,从而减少干扰。通过分析50,000用户的合成数据集,展示了如何估计直接效果和溢出效果,并强调了在协作产品实验中采用集群随机化的重要性。

协作AI功能的产品实验:基于Python的LLM工具中的集群随机化

freeCodeCamp.org
freeCodeCamp.org · 2026-05-22T19:15:56Z
使用LLM嵌入和元数据构建上下文感知的Python搜索

本文介绍了如何使用Python构建上下文感知的语义搜索引擎,结合嵌入式相似性和结构化元数据过滤。内容涵盖句子嵌入和余弦相似度的原理,构建元数据感知的搜索索引,以及索引的持久化方法。这些技术能够有效找到与用户查询相关的文档,同时考虑上下文约束。

使用LLM嵌入和元数据构建上下文感知的Python搜索

MachineLearningMastery.com
MachineLearningMastery.com · 2026-05-22T12:00:56Z
网易游戏如何在Kubernetes上实现30秒的LLM冷启动

在网易游戏,我们发现大语言模型(LLM)推理的关键在于数据传输速度。通过使用Fluid,我们将模型加载时间从42分钟缩短至3分钟,显著提高了推理效率。同时,Fluid支持跨命名空间共享模型,减少内存浪费,简化操作,使得在Kubernetes上进行LLM推理变得可行且高效。

网易游戏如何在Kubernetes上实现30秒的LLM冷启动

Cloud Native Computing Foundation
Cloud Native Computing Foundation · 2026-05-21T11:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码