小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
网易游戏如何在Kubernetes上实现30秒的LLM冷启动

在网易游戏,我们发现大语言模型(LLM)推理的关键在于数据传输速度。通过使用Fluid,我们将模型加载时间从42分钟缩短至3分钟,显著提高了推理效率。同时,Fluid支持跨命名空间共享模型,减少内存浪费,简化操作,使得在Kubernetes上进行LLM推理变得可行且高效。

网易游戏如何在Kubernetes上实现30秒的LLM冷启动

Cloud Native Computing Foundation
Cloud Native Computing Foundation · 2026-05-21T11:00:00Z
大模型不只是猜下一个词:猜词猜出了智能的雏形

大语言模型(LLM)不仅仅是预测下一个词的工具。虽然其训练任务是词汇预测,但为了提高准确性,模型必须学习语法、常识和推理等深层结构。这些能力使得模型在新场景中展现出智能行为,因此将其简单视为“猜词”是不全面的。

大模型不只是猜下一个词:猜词猜出了智能的雏形

极道
极道 · 2026-05-17T23:05:00Z
为什么我不“凭感觉编程”

作者Jacob Harris探讨了大语言模型(LLM)对软件开发的影响。他认为,尽管LLM能提高生产力,但编程的复杂性和创造性仍需人类的经验和理解。编程不仅是技术活,更是创造力的表达过程,学习和成长中的摩擦与挑战不可或缺。他对将责任外包给LLM表示担忧,认为这可能导致更大的问题,最终强调编程的乐趣和责任感无法被机器替代。

为什么我不“凭感觉编程”

宝玉的分享
宝玉的分享 · 2026-05-17T00:00:00Z
硅基幻觉与碳基逆袭:大语言模型到底有没有真智能

大语言模型(LLM)与通用人工智能(AGI)存在本质区别。LLM缺乏真实的世界模型,无法理解符号与现实的对应关系,其输出仅为统计结果。当前AI的“智能涌现”常被误解,缺乏因果关系理解能力。相比之下,人类通过内在世界模型和主动探索,能够有效学习和适应环境。未来AI的发展需结合因果模型与主动学习,才能实现真正的智能。

硅基幻觉与碳基逆袭:大语言模型到底有没有真智能

极道
极道 · 2026-05-16T23:58:00Z
「诚实」的机器

文章探讨了大语言模型在自杀和心理健康问题上的反应,特别是Grok模型拒绝承认跨性别女性身份的案例。作者指出,机器无法承担道德责任,真正的责任在于人类。同时,社交媒体上的恶意言论和对脆弱个体的嘲讽令人痛心,强调了对生命的尊重和理解的重要性。

「诚实」的机器

極客死亡計劃
極客死亡計劃 · 2026-05-12T13:00:13Z
在24GB M4 MacBook上跑本地大模型:Qwen 3.5-9B实测40 tokens/s,支持工具调用

开发者jola分享了在M4 MacBook Pro上运行Qwen 3.5-9B(Q4_K_S量化版)本地大语言模型的经验,尽管该模型无法完成复杂任务,但它提升了开发者的参与度,成为一种可控的离线助手,适合24GB内存的用户。

在24GB M4 MacBook上跑本地大模型:Qwen 3.5-9B实测40 tokens/s,支持工具调用

dotNET跨平台
dotNET跨平台 · 2026-05-12T00:01:01Z
AI购物助手:工作原理及构建指南

AI购物助手利用大语言模型和向量嵌入技术,提高产品搜索和个性化推荐的效率。主要分为语义搜索引擎、RAG助手、代理系统、视觉搜索和个性化引擎五类。关键在于快速、准确的数据检索,以确保助手的可靠性和用户信任。Redis平台通过内存优先架构,提供低延迟的向量搜索和语义缓存,优化购物体验。

AI购物助手:工作原理及构建指南

Redis Blog
Redis Blog · 2026-05-12T00:00:00Z

本文探讨了如何利用大语言模型(LLM)管理安全开发规范。通过建立一个llm-wiki中间层,将原始文档编译成结构化数据,生成操作手册CLAUDE.md,收集素材,并最终输出规范文档。这种方法提高了文档管理效率,确保信息的可持续更新和交叉引用,解决了传统文档管理中的问题。

用LLM管理安全开发规范:一次llm-wiki实践

Mobility
Mobility · 2026-05-11T07:38:16Z

本文探讨了如何利用大语言模型(LLM)管理安全开发规范,通过建立llm-wiki中间层,将原始文档编译成结构化数据,以提升文档的可查找性和维护性。作者分享了实现过程,包括生成操作手册、收集原始素材、让LLM生成Wiki层以及最终规范文档的生成。经过多轮迭代和细化,最终形成了高效的知识管理系统,显著改善了文档的使用体验和更新机制。

用LLM管理安全开发规范:一次llm-wiki实践

Mobility
Mobility · 2026-05-11T07:38:16Z
BalCapRL:一种基于强化学习的多模态大语言模型图像描述的平衡框架

本文介绍了一种名为BalCapRL的平衡强化学习框架,旨在优化多模态大语言模型的图像描述。该框架通过奖励解耦归一化和长度条件奖励掩蔽,显著提升了描述的实用性、覆盖率和语言质量,克服了现有方法在描述质量上的局限性,多个模型的性能均有显著提高。

BalCapRL:一种基于强化学习的多模态大语言模型图像描述的平衡框架

Apple Machine Learning Research
Apple Machine Learning Research · 2026-05-11T00:00:00Z
深度拆解:AI Agent Harness 的构造

本文探讨了AI Agent Harness的构造及其在大语言模型(LLM)应用中的重要性。Agent Harness是一个完整的架构,包含编排循环、工具、记忆和上下文管理等组件。优化这些基础设施可以显著提升系统性能。文章分析了生产级Harness的核心组件及其工程化层次,强调设计良好的Harness对Agent表现的影响。

深度拆解:AI Agent Harness 的构造

宝玉的分享
宝玉的分享 · 2026-05-10T00:00:00Z
大语言模型速度基准:指标与基础设施指南

本文讨论了大语言模型(LLM)推理速度的关键指标及其对用户体验的影响,强调选择合适模型和优化指标的重要性。介绍了TTFT、TTFAT、输出速度等六个性能指标,并提到语义缓存技术可以减少推理瓶颈,提高响应速度和降低成本。Redis作为实时数据平台,支持语义缓存和向量搜索,适合构建高效的GenAI应用。

大语言模型速度基准:指标与基础设施指南

Redis Blog
Redis Blog · 2026-05-10T00:00:00Z
Modular:为什么大语言模型推理需要一种新型路由器 - 第1部分

Modular Cloud正在解决大语言模型(LLM)推理中的路由问题。传统负载均衡方法不适用于LLM,因为需要考虑状态、硬件特性和会话连续性。新的路由层能够根据缓存状态和硬件优化请求处理,支持多步骤执行,从而提升响应速度和效率。

Modular:为什么大语言模型推理需要一种新型路由器 - 第1部分

Modular Blog
Modular Blog · 2026-05-08T00:00:00Z
网易游戏如何将大语言模型冷启动时间从42分钟缩短至30秒

网易游戏在大语言模型推理中面临挑战,发现数据加载速度至关重要。通过使用Fluid项目,模型加载时间从42分钟缩短至3分钟,显著提升了推理效率并降低了成本。Fluid的共享缓存模型减少了内存浪费,简化了操作,使得在Kubernetes上进行LLM推理成为可能。

网易游戏如何将大语言模型冷启动时间从42分钟缩短至30秒

The New Stack
The New Stack · 2026-05-06T13:00:00Z
为什么你的大语言模型应用感觉缓慢(即使API“正常工作”)

本文讨论了大语言模型(LLM)应用中的API延迟问题,强调用户体验与技术性能之间的差距。API延迟包括请求发送到响应接收的时间,受模型推理、检索和上下文组装等因素影响。文章提出了三项关键指标:首次令牌时间(TTFT)、令牌间延迟和端到端延迟,并建议通过精确测量和优化缓存、检索及模型效率来降低延迟。Redis被推荐作为解决方案,以提供快速的语义缓存和向量搜索,提升LLM应用的响应速度。

为什么你的大语言模型应用感觉缓慢(即使API“正常工作”)

Redis Blog
Redis Blog · 2026-05-06T00:00:00Z
从事物的位置到它们的用途:多模态大语言模型的空间–功能智能基准评估

本文介绍了空间功能智能基准(SFI-Bench),用于评估多模态大语言模型的高级推理能力。SFI-Bench包含1700多个基于视频的问题,重点评估结构化空间推理和功能推理。实验结果显示,现有模型在整合空间记忆与功能知识方面存在瓶颈,强调了提升多模态智能代理的必要性。

从事物的位置到它们的用途:多模态大语言模型的空间–功能智能基准评估

Apple Machine Learning Research
Apple Machine Learning Research · 2026-05-06T00:00:00Z
GPT天生瞎编真相:数学近似叠加致误差层层放大原理拆解!

文章探讨了大语言模型(如GPT)的设计缺陷,指出其输出错误源于数学结构和概率机制。模型的近似方法叠加导致误差放大,生成看似合理但不可靠的结果。缺乏数学证明和稳定性保证使得模型在复杂问题上表现不佳。作者强调使用GPT时应谨慎,将其视为辅助工具,而非最终决策者。

GPT天生瞎编真相:数学近似叠加致误差层层放大原理拆解!

极道
极道 · 2026-05-02T07:49:00Z
用本地大模型驱动中文输入法,我做了一个实验性的项目 - 曦远Code

该项目探索将大语言模型(LLM)应用于输入法,通过上下文理解优化候选词排序。用户输入拼音后,LLM根据语境提供更相关的词汇,提升输入体验。项目使用Node.js和React构建,支持本地运行以确保隐私。尽管仍在实验阶段,但效果超出预期,未来计划进一步改进并整合到真实输入法中。

用本地大模型驱动中文输入法,我做了一个实验性的项目 - 曦远Code

程序设计实验室
程序设计实验室 · 2026-05-01T05:56:00Z
用本地Qwen3大模型驱动中文输入法,我做了一个实验性的项目

该项目llm-ime旨在利用大语言模型(LLM)改善拼音输入法的候选词排序。与传统基于词频的输入法不同,LLM能够通过分析上下文提供更符合语境的候选词。项目目前使用本地量化模型以确保隐私,现处于Web验证阶段,未来计划接入真实输入法框架并优化候选词评分策略。

用本地Qwen3大模型驱动中文输入法,我做了一个实验性的项目

dotNET跨平台
dotNET跨平台 · 2026-04-30T23:57:50Z
10万引普林斯顿刘壮最新访谈:架构没那么重要,数据才是王道

刘壮教授在访谈中指出,AI领域的最大瓶颈是记忆,而非能力。他认为架构选择不如数据规模和计算能力重要,现有数据集的多样性低于预期。大语言模型在语言空间有世界模型,但在视觉空间尚未实现。尽管AI在低层次任务上表现良好,但在自主科研和复杂问题上仍需人类参与。

10万引普林斯顿刘壮最新访谈:架构没那么重要,数据才是王道

量子位
量子位 · 2026-04-29T04:20:49Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码