小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
OpenAI的新GPT-5.5在NVIDIA基础设施上驱动Codex应用,NVIDIA已开始投入使用

OpenAI的最新模型GPT-5.5已在NVIDIA基础设施上运行,推动Codex应用程序的开发。超过10,000名NVIDIA员工在各个职能中使用Codex,显著提高了成本效率,缩短了调试时间,实验进展迅速。NVIDIA与OpenAI的合作已持续十年,推动了AI技术的发展。

OpenAI的新GPT-5.5在NVIDIA基础设施上驱动Codex应用,NVIDIA已开始投入使用

NVIDIA Blog
NVIDIA Blog · 2026-04-23T18:57:55Z
基础设施的隐性成本:为什么你的团队不应该再管理它

大多数工程团队专注于产品创意和客户需求,而忽视基础设施管理,导致维护负担加重,影响工作效率。基础设施应被视为持续性系统,而非一次性任务。平台即服务(PaaS)可以减轻基础设施负担,使团队能够专注于产品开发,从而提高交付速度和竞争优势。

基础设施的隐性成本:为什么你的团队不应该再管理它

freeCodeCamp.org
freeCodeCamp.org · 2026-04-23T17:05:15Z
HashiCorp 创始人亲口“认错”:AI 让我重新爱上了 Go (文末福利)

HashiCorp 创始人 Mitchell Hashimoto 最近表示,AI 的出现让他重新爱上 Go 语言。尽管曾对 Go 表达失望,但他发现 AI Agent 在 Go 上的生产力极高,使 Go 的简洁性和一致性成为优势。此外,Hashimoto 提到 Go 与 Zig 的结合可以实现高效的基础设施开发,强调编程语言在 AI 时代的重要性。

HashiCorp 创始人亲口“认错”:AI 让我重新爱上了 Go (文末福利)

Tony Bai
Tony Bai · 2026-04-23T00:18:03Z
Anthropic的Mythos工具未能进入美国网络安全与基础设施安全局

美国网络安全与基础设施安全局(CISA)未能获得Anthropic的AI工具Mythos Preview,尽管其他联邦机构正在使用该工具。CISA的资源有限,可能影响其数字安全能力。特朗普政府削减了CISA的优先级和预算,导致其在网络攻击防护方面的能力下降。

Anthropic的Mythos工具未能进入美国网络安全与基础设施安全局

The Verge
The Verge · 2026-04-22T16:57:36Z
从GPU到Token:AI基础设施竞争逻辑重构

商汤大装置在全球AI工厂市场中受到Omdia高度评价,开创了“智能精炼”范式,推动AI基础设施的结构性变革。其AI数字工厂架构分为四层,旨在实现智能生产与交付,通过优化算法、数据和算力,降低AI应用门槛,提升生产效率和成本优势,展现出强大的全球竞争力。

从GPU到Token:AI基础设施竞争逻辑重构

量子位
量子位 · 2026-04-22T04:48:03Z

大模型系统的可观测性与传统微服务不同,需关注请求成本、延迟和正确性等多维度指标。文章提出四层观测模型:基础设施层、调用层、质量层和业务层,并推荐使用多种工具(如Langfuse、Helicone等)进行监控。可观测性应能快速定位问题并修复,以确保用户体验。

【大模型基础设施工程】23:LLM 可观测性

土法炼钢兴趣小组的博客
土法炼钢兴趣小组的博客 · 2026-04-22T00:00:00Z

推测解码是一种加速大模型推理的方法,解决了显存带宽限制问题。通过一次性处理多个token,提升生成效率。经典算法如Medusa和EAGLE通过多头预测和特征自回归优化性能,而Lookahead解码则利用当前模型进行并行预测,无需额外模型。整体上,推测解码显著提高了解码速度和准确性,适用于多种场景。

【大模型基础设施工程】15:推测解码与 MTP

土法炼钢兴趣小组的博客
土法炼钢兴趣小组的博客 · 2026-04-22T00:00:00Z

本文探讨了大模型基础设施的必要性与发展历程,强调大模型的特点,如计算和内存密集、状态重、故障常态化及高成本。系列文章将涵盖从硬件到应用的五层模型,帮助工程师理解大模型的工程化过程及其挑战。未来的工程创新将是降低成本的关键,推理侧的重要性将超过训练侧。

【大模型基础设施工程】01:大模型基础设施全景 —— 训练、推理、RAG、Agent、观测

土法炼钢兴趣小组的博客
土法炼钢兴趣小组的博客 · 2026-04-22T00:00:00Z

本文探讨了大模型对齐的流程,包括监督微调(SFT)、奖励模型(RM)和强化学习(RL)。对齐不仅提升了模型对指令的理解能力,还影响推理能力和回答质量。文章介绍了直接偏好优化(DPO)作为一种新方法,简化了训练流程,减少了模型数量,提高了效率。未来研究将关注可验证奖励和长上下文推理,以增强模型的推理能力和应用范围。

【大模型基础设施工程】09:RLHF 与对齐流水线

土法炼钢兴趣小组的博客
土法炼钢兴趣小组的博客 · 2026-04-22T00:00:00Z

本文探讨了长上下文模型的工程挑战与解决方案,包括位置编码、注意力计算复杂度、训练策略和推理优化。随着上下文长度增加,模型面临计算复杂度和显存限制。采用RoPE、YaRN等技术扩展位置编码,并结合线性注意力和稀疏注意力优化计算效率。在训练方面,采用短预训练与长继续预训练相结合的策略,推理时利用前缀缓存和KV压缩等技术提高效率。

【大模型基础设施工程】16:长上下文工程

土法炼钢兴趣小组的博客
土法炼钢兴趣小组的博客 · 2026-04-22T00:00:00Z

本文探讨了大模型推理的工程差异,强调训练与推理的不同需求。推理分为Prefill和Decode两个阶段,前者关注计算吞吐,后者关注延迟。KV Cache的使用显著提高了推理效率,减少了计算复杂度。文章还介绍了Continuous Batching和Prefill/Decode分离的优势,强调了高并发场景下的显存管理和性能优化策略。

【大模型基础设施工程】11:推理引擎基础

土法炼钢兴趣小组的博客
土法炼钢兴趣小组的博客 · 2026-04-22T00:00:00Z

本文探讨了RAG(检索增强生成)中的存储与检索层,重点介绍向量索引算法的选择和量化方法,以及2024-2026年工业界的趋势。文章分为四部分:算法底层、产品选型、工程实操和图RAG与趋势,提供实用的参数和代码示例。向量检索主要使用近似最近邻(ANN)算法,推荐HNSW作为工业标准,并结合量化技术以降低内存占用。最后,GraphRAG结合知识图谱与向量检索,提升多跳推理能力。

【大模型基础设施工程】18:向量库与图 RAG

土法炼钢兴趣小组的博客
土法炼钢兴趣小组的博客 · 2026-04-22T00:00:00Z

RAG(检索增强生成)是解决大语言模型(LLM)结构性缺陷的关键。它通过知识解耦和外部存储检索,降低幻觉率,实现知识快速更新,确保私有数据安全并提供可追溯性。RAG系统包括离线ETL和在线查询,涉及文档解析、清洗、切片、嵌入和检索等环节,高质量的文档解析和有效的检索策略是其成功的基础。

【大模型基础设施工程】17:RAG 工程全景

土法炼钢兴趣小组的博客
土法炼钢兴趣小组的博客 · 2026-04-22T00:00:00Z

本文探讨了现代推理引擎的选择,分析了vLLM、SGLang、TensorRT-LLM等八大引擎的架构、性能和生态。提供了基于硬件和场景的选型决策树,强调了各引擎在KV缓存管理、调度和量化支持等方面的差异,并指出了未来的发展趋势和社区现状。

【大模型基础设施工程】13:vLLM / SGLang / TensorRT-LLM / TGI 对比

土法炼钢兴趣小组的博客
土法炼钢兴趣小组的博客 · 2026-04-22T00:00:00Z

大模型基础设施已进入量产阶段,长期运行的关键在于成本、合规和安全。成本包括训练和推理的电费、硬件折旧等;合规方面,生成式AI需遵循全球多项法律法规;安全则涉及数据泄漏和模型攻击等风险。工程师需关注这些因素,以确保系统的稳定与合规。

【大模型基础设施工程】二十四:成本、合规与安全

土法炼钢兴趣小组的博客
土法炼钢兴趣小组的博客 · 2026-04-22T00:00:00Z

本文讨论了大规模模型训练中的并行化技术,特别是671B MoE模型的训练挑战。随着模型规模的增加,单卡显存不足以支持训练,因此需要采用数据并行、张量并行和流水线并行等多种策略。文章分析了显存消耗、通信成本及不同并行策略的优缺点,并强调了优化通信与计算重叠的重要性。最后,提出了针对不同规模模型的并行配置建议。

【大模型基础设施工程】06:3D 并行深度——数据 / 张量 / 流水 / 序列 / ZeRO

土法炼钢兴趣小组的博客
土法炼钢兴趣小组的博客 · 2026-04-22T00:00:00Z

大模型的功能演进从简单的字符串输出到复杂的工具调用,标志着其成为真正的智能助手。文章探讨了Function Calling的演变、结构化输出技术,以及Anthropic即将推出的MCP协议,旨在实现工具生态的互通性,简化开发者的工作流程。通过并行工具调用和约束解码等技术,提升了模型的准确性和效率,推动了大模型在工业应用中的发展。

【大模型基础设施工程】20:工具调用与 MCP

土法炼钢兴趣小组的博客
土法炼钢兴趣小组的博客 · 2026-04-22T00:00:00Z

2024年,混合专家(MoE)架构成为大模型的主流,开源项目如Mixtral和DeepSeek推动了其发展。MoE通过减少激活参数显著降低计算成本,同时提升模型表达能力,适合算力充裕的场景。关键技术包括细粒度专家、共享专家和改进的负载均衡策略。未来,MoE将向更大规模和动态专家数发展。

【大模型基础设施工程】08:MoE 训练工程

土法炼钢兴趣小组的博客
土法炼钢兴趣小组的博客 · 2026-04-22T00:00:00Z

本文探讨了GPU在大模型训练中的优势,特别是与CPU的对比。GPU通过大量弱核和简化控制实现高算力密度,适合处理大规模矩阵运算。分析了GPU的执行模型、内存层级及Tensor Core的演进,强调带宽与算力平衡对性能的影响,并提出了优化策略以提高GPU在解码阶段的利用率。

【大模型基础设施工程】02:GPU 计算入门——SM、Tensor Core、HBM、NVLink

土法炼钢兴趣小组的博客
土法炼钢兴趣小组的博客 · 2026-04-22T00:00:00Z

本文总结了大模型基础设施工程师在未来3-5年内需掌握的知识与技能,回顾了2022至2026年的关键技术拐点,分析了推理计算、视频生成、Agent操作系统等八大趋势,并提供了工程师成长路径与资源推荐。强调基础设施的持续演进与成本降低,同时面临合规与安全挑战。

【大模型基础设施工程】25:大模型基础设施未来

土法炼钢兴趣小组的博客
土法炼钢兴趣小组的博客 · 2026-04-22T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码