The New Stack ·

生产级生成AI技术栈：架构与组件

💡 原文英文，约2500词，阅读约需9分钟。

📝

内容提要

企业AI生态系统已从实验阶段发展为生产级系统，形成复杂的多层技术架构。理解各层及其组成部分对构建可扩展AI系统至关重要。主要云服务商如亚马逊、微软和谷歌提供全面的技术栈，支持现代生成AI应用的发展。

🎯

关键要点

企业AI生态系统已从实验阶段发展为生产级系统，形成复杂的多层技术架构。
理解各层及其组成部分对构建可扩展AI系统至关重要。
主要云服务商如亚马逊、微软和谷歌提供全面的技术栈，支持现代生成AI应用的发展。
加速计算是AI堆栈的基础，现代AI工作负载需要超越传统CPU架构的处理能力。
图形处理单元（GPU）提供AI工作负载所需的并行处理能力。
应用特定集成电路（ASIC）为AI计算设计，优化特定操作以提高效率。
模型目录提供对多样化AI模型的有序访问，简化模型选择和部署的复杂性。
第一方模型是由主要平台提供商开发的专有模型，通常包括大型语言模型和多模态系统。
合作伙伴模型通过与AI研究组织和供应商的合作扩展生态系统。
开放权重模型提供透明性，使模型架构和权重公开可用。
领域特定模型针对特定行业进行预训练或微调，减少组织的微调负担。
微调模型是根据组织数据和特定任务要求定制的版本。
模型调用是应用程序与AI模型交互的执行层，管理推理的复杂性。
推理引擎处理模型执行，优化GPU内存分配和响应生成。
模型路由智能分配请求，支持A/B测试和渐进式发布。
提示缓存减少重复处理，提高推理效率。
上下文管理解决AI响应的相关性和准确性问题。
嵌入模型将内容转化为高维向量表示，支持语义检索。
向量数据库专门存储和索引嵌入，支持近似最近邻搜索。
知识库聚合组织内容，为嵌入和检索提供源材料。
RAG管道协调端到端检索过程，增强模型调用的上下文。
摄取系统处理内容的持续同步，确保知识库保持最新。
搜索能力结合语义和基于关键字的检索，提供更好的结果。
编排将基础设施整合为连贯的多步骤工作流，管理复杂交互。
提示流定义操作的逻辑顺序，支持业务逻辑的可视化编程。
管道提供可重用的工作流模板，支持参数化和监控。
服务集成使AI工作流与外部系统和云服务交互。
工具代表可执行的能力，支持编排工作流。
代理管理引入自主行为，支持多轮任务的规划和执行。
代理框架实现推理循环，决定使用哪些工具和下一步行动。
代理内存在交互中保持状态，存储会话历史和任务进展。
开发者体验决定工程师将AI能力集成到应用程序的便利性。
工作室提供图形环境，支持无代码的提示设计和模型测试。
API提供对AI能力的编程访问，支持多种编程语言的集成。
SDK和库简化常见任务，封装最佳实践。
CLI工具支持命令行交互，适用于脚本和自动化测试。
用户体验定义最终用户与生成AI能力的交互方式。
聊天机器人接口提供对话访问，支持消息流和会话持久性。
AI助手嵌入智能于现有工作流，提供上下文建议和自动摘要。
代理UX代表自主AI角色，完成多步骤任务。
AI增强应用程序将生成能力融入传统软件体验中。
安全性和身份访问管理确保AI系统满足企业的认证和数据保护要求。
保护措施防止AI系统生成有害或不当内容。
可观察性提供对系统行为和性能的可见性，支持快速诊断问题。
评估框架通过自动测试和人工审查衡量AI系统质量。

❓

延伸问答

什么是生产级生成AI技术栈的主要组成部分？

生产级生成AI技术栈主要由加速计算、模型目录、模型调用、上下文管理、编排和用户体验等组成。

加速计算在AI技术栈中有什么重要性？

加速计算是AI堆栈的基础，现代AI工作负载需要超越传统CPU架构的处理能力，GPU和ASIC提供必要的并行处理能力。

什么是第一方模型和合作伙伴模型？

第一方模型是由主要平台提供商开发的专有模型，而合作伙伴模型通过与AI研究组织和供应商的合作扩展生态系统。

模型调用的执行层是如何管理推理的复杂性的？

模型调用的执行层通过优化成本、延迟和可靠性来管理推理的复杂性，使用推理引擎处理模型执行。

上下文管理在生成AI中起什么作用？

上下文管理解决AI响应的相关性和准确性问题，通过检索增强生成模式来提供更准确的响应。

如何确保AI系统的安全性和身份访问管理？

AI系统的安全性和身份访问管理通过实施角色基础访问控制、数据加密和审计日志来确保满足企业的认证和数据保护要求。

🏷️

继续阅读

驱动Wise的技术架构
Wise的技术架构通过标准化和自动化提升服务的可靠性与效率。微服务框架确保一致性，Kubernetes和CRP优化基础设施，Spinnaker改进部署流程...
企业在AI应用中获胜的关键是首先构建数据层
Trinity Industries通过构建强大的数据基础，实现了AI驱动的转型。首席数据官Stephen Ecker指出，数据层是战略核心，解决了数据碎...
将AI令牌使用量减少96%？AWS Strands Agents是如何做到的
AWS开发者倡导者摩根·威利斯讨论了Strands Agents的开源框架，该框架自发布以来已下载超过1400万次。她演示了如何通过意图驱动的工具将API...
Ubuntu的AI计划让Linux用户寻求“杀开关”
Canonical计划在Ubuntu中添加AI功能，用户可以选择不安装或移除这些功能。部分用户要求提供“杀开关”以禁用AI功能，但Canonical表示不...
Anaconda收购Outerbounds，以控制AI代理生成的缺陷代码
Anaconda收购Outerbounds，旨在提升AI开发平台，提供从实验到生产的治理路径。AI生成代码占企业新代码近一半，但缺陷率高。Anaconda...
谷歌照片推出AI试穿功能，让用户虚拟试穿已有衣物
谷歌照片推出了一项新的AI功能，用户可以虚拟试穿已有的衣物，创建虚拟“衣橱”，混搭服装、保存造型并分享。该功能将于夏季在安卓设备上推出，随后扩展到iOS。