小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
通过LLM评估优化实验——一个漏斗,而非分叉

LLM评估是一种新工具,能够快速、低成本地评估内容的相关性和质量。Spotify的实验表明,评估与实验应结合使用,评估帮助筛选候选项,实验验证用户反应。通过不断调整评估,提升其与在线结果的匹配度,确保系统的有效性和用户体验。

通过LLM评估优化实验——一个漏斗,而非分叉

Spotify Engineering
Spotify Engineering · 2026-05-18T13:27:23Z
LeCun炮轰Hinton:他认可LLM就是想摆烂退休了!

Lecun与Hinton对大型语言模型(LLM)的看法存在显著分歧。Hinton认为LLM接近人类智能,而Lecun则认为LLM并非通往人类智能的路径,强调世界模型的重要性,认为智能系统需要预测行为后果的能力。Lecun最近离开Meta,创办了AMI,专注于现实世界的AI应用,认为突破性研究需要优秀人才和资源支持。

LeCun炮轰Hinton:他认可LLM就是想摆烂退休了!

量子位
量子位 · 2026-05-18T05:59:37Z

文章探讨了如何将大型语言模型(LLM)视为具备人类特征的合作伙伴,以提升Agent工程的效率。强调认知对齐、记忆解耦、视觉感知优化和反馈机制的重要性,建议为LLM构建拟人化的交互环境,避免传统的机械指令模式。通过科学的工作流程和工具链设计,Agent可以更有效地解决问题,实现更高的工作效率。

把 LLM ĺ˝“ćˆâ€œäşşâ€ďźŒć‰ć˜Ż Agent ĺˇĽç¨‹čż›é˜śçš„čľˇç‚š

HikariLan's Blog
HikariLan's Blog · 2026-05-17T13:46:11Z

该文章讨论了在rust-lang/rust GitHub项目中添加大型语言模型(LLM)政策的提议,主要包括禁止评论LLM的社会经济影响、环境影响、版权状态及道德判断。管理团队将协助执行这些规则。

为rust-lang/rust添加大型语言模型(LLM)政策

Drew DeVault's blog
Drew DeVault's blog · 2026-05-15T00:00:00Z

Amit Navindgi discusses the systematic shift at Zoox from fragmented documentation to an AI-driven ecosystem. He explains how they built "Cortex," a secure platform integrating RAG, multi-modal...

Presentation: Accelerating LLM-Driven Developer Productivity at Zoox

InfoQ
InfoQ · 2026-05-14T13:05:00Z
使用合成控制进行产品实验:Python中全球LLM发布的因果推断

在产品实验中,全球发布模型升级可能导致测量陷阱,缺乏对照组。合成控制方法通过构建未处理单位的加权组合,帮助数据科学家在没有对照组的情况下进行因果推断。本文介绍了如何使用Python实现合成控制,验证其有效性,并讨论常见的失败模式及应对策略。

使用合成控制进行产品实验:Python中全球LLM发布的因果推断

freeCodeCamp.org
freeCodeCamp.org · 2026-05-12T04:55:04Z

本文探讨了如何利用大语言模型(LLM)管理安全开发规范。通过建立一个llm-wiki中间层,将原始文档编译成结构化数据,生成操作手册CLAUDE.md,收集素材,并最终输出规范文档。这种方法提高了文档管理效率,确保信息的可持续更新和交叉引用,解决了传统文档管理中的问题。

用LLM管理安全开发规范:一次llm-wiki实践

Mobility
Mobility · 2026-05-11T07:38:16Z

本文探讨了如何利用大语言模型(LLM)管理安全开发规范,通过建立llm-wiki中间层,将原始文档编译成结构化数据,以提升文档的可查找性和维护性。作者分享了实现过程,包括生成操作手册、收集原始素材、让LLM生成Wiki层以及最终规范文档的生成。经过多轮迭代和细化,最终形成了高效的知识管理系统,显著改善了文档的使用体验和更新机制。

用LLM管理安全开发规范:一次llm-wiki实践

Mobility
Mobility · 2026-05-11T07:38:16Z

本文讨论了利用大型语言模型(LLM)重构遗留代码的经验与教训,指出了三个主要陷阱:未测试即重构、过度工程化和全盘重写。重构前应编写特征测试以记录当前行为,避免系统崩溃。重构应逐步进行,确保每个模块正常运行。作者提出了一套五步方法,强调保持可逆性和清晰的工程纪律。

读:用 LLM 重构遗留代码——三个陷阱与一套方法

暗无天日
暗无天日 · 2026-05-10T00:00:00Z
上下文修剪:在不损失质量的情况下减少LLM令牌

上下文修剪是从大型语言模型(LLM)输入中去除低价值内容,以降低成本并提高输出质量。它属于提示压缩,旨在减少输入长度和提高处理效率。修剪方法包括标记级、句子级和基于注意力的修剪。研究表明,适度修剪可以改善LLM性能,尤其与语义缓存结合使用时效果更佳。

上下文修剪:在不损失质量的情况下减少LLM令牌

Redis Blog
Redis Blog · 2026-05-09T00:00:00Z
回归不连续性下的产品实验:LLM置信度阈值如何在Python中创造自然实验

本文探讨了如何使用回归不连续性设计(RDD)评估基于置信度的路由模型的因果效应。通过分析在0.85阈值附近的查询,作者展示了利用Python进行数据分析,验证高置信度查询是否能提高任务完成率。文章强调了选择带宽和模型规格的重要性,并提供了多种检验方法以确保结果的稳健性,最终证明RDD是分析AI特征的有效工具,尤其在存在明确阈值的情况下。

回归不连续性下的产品实验:LLM置信度阈值如何在Python中创造自然实验

freeCodeCamp.org
freeCodeCamp.org · 2026-05-08T15:33:41Z

同一个需求(比如让 AI 读 PDF),有两种架构来实现:直接调 LLM API 自己管工具循环,或者用 MCP 协议把工具暴露成独立服务。本文对比两种路线的架构差异、代码实现和选型依据,解释 MCP 的工具发现、复用和标准化到底解决了什么问题。

读:理解 MCP 架构——LLM 直接调 API 与 MCP 协议的对比

暗无天日
暗无天日 · 2026-05-05T00:00:00Z

文章探讨了大型语言模型(LLM)在生产环境中的六种失败原型:自信胡诌、上下文失忆、无限循环、脆弱工具调用、过度拒绝和Token燃烧。基准测试无法预测多轮对话中的问题,导致模型在实际应用中频繁出错。通过案例分析,强调选择模型时应关注其失败模式的可接受性,并提出“失败预算”概念,以量化不同场景的容忍度。

读:LLM 生产环境六种失败原型——基准测试无法预测的那些故障

暗无天日
暗无天日 · 2026-05-01T00:00:00Z
基于倾向评分的产品实验:Python中LLM特征的因果推断

文章讨论了在基于大型语言模型(LLM)的产品中,用户选择新功能(如AI助手)时的偏差问题。重度用户更倾向于尝试新功能,导致比较结果失真。为解决这一问题,文章介绍了倾向评分方法,通过统计工具消除选择偏差,准确评估功能效果,并提供具体步骤和代码示例,帮助数据科学家在产品实验中应用这些方法。

基于倾向评分的产品实验:Python中LLM特征的因果推断

freeCodeCamp.org
freeCodeCamp.org · 2026-04-30T23:01:26Z

Andrej Karpathy 提出了利用大型语言模型(LLM)构建个人知识库的概念,强调分享想法比分享代码更有效。通过增量维护的维基,知识得以持续积累,而不是每次查询都重新检索。文章介绍了三层架构:原始资料、知识库和配置文件,强调 LLM 在知识管理中的重要性。Karpathy 认为 LLM 能有效解决知识维护的繁琐问题。

读:Karpathy 的 LLM Wiki——让 AI 帮你维护知识库

暗无天日
暗无天日 · 2026-04-29T00:00:00Z

LLM(大语言模型)在DevOps中的应用包括代码与配置生成、智能排障和基础设施代码安全审查。它能够快速生成基础设施配置,缩短CI/CD配置时间,提高开发效率。同时,LLM可分析日志,快速定位问题并推荐修复方案,显著减少事件解决时间。此外,LLM还能够审查基础设施代码中的安全风险,增强DevOps流水线的安全性。

LLM 在 DevOps 中的三种角色

暗无天日
暗无天日 · 2026-04-29T00:00:00Z

本文探讨了LLM提示词缓存的重要性,强调其在降低API调用成本中的作用。通过分析Claude Code的案例,指出静态前缀与动态后缀的区别,缓存的有效性依赖于前缀的稳定性。总结了三条规则以保持缓存命中率,并展示了高达92%的命中率和81%的成本节省,强调了缓存设计的重要性。

读 — Prompt Caching 省钱指南

暗无天日
暗无天日 · 2026-04-29T00:00:00Z

In a

Text Summarization with Scikit-LLM

MachineLearningMastery.com
MachineLearningMastery.com · 2026-04-27T12:00:13Z

本文介绍了10个有助于构建大型语言模型(LLM)应用的Python库,包括Transformers、LangChain、LlamaIndex、vLLM、Unsloth、CrewAI、AutoGPT、LangGraph、DeepEval和OpenAI Python SDK。这些工具简化了LLM应用的开发,提高了效率和可靠性。

构建大型语言模型(LLM)应用的10个Python库

KDnuggets
KDnuggets · 2026-04-27T12:00:00Z
流式LLM响应:让你的AI应用感觉更快

本文讨论了流式响应在大型语言模型(LLM)中的应用,强调其提升用户体验的作用。流式技术通过实时发送生成的每个令牌,减少用户等待时间,使交互更自然。结合缓存技术,流式响应可以进一步提高应用的响应速度,Redis在AI应用中提供高效的缓存和数据处理能力,帮助开发者优化性能。

流式LLM响应:让你的AI应用感觉更快

Redis Blog
Redis Blog · 2026-04-26T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码