作者
Cole Stryker
Editorial Lead, AI Models
什么是 AI 堆栈?
AI 堆栈是技术、框架和基础设施组件的集合,有助于使用人工智能 (AI) 系统。它通过对这些组件进行分层,为构建 AI 解决方案提供结构,从而支持端到端的 AI 生命周期。
与软件开发中的技术栈(或技术堆栈)类似,AI 堆栈将各种元素组织成不同的层,这些层协同工作,从而实现高效、可扩展的 AI 实施。这种分层方法将构建 AI 解决方案的复杂过程分解为易于管理的组件,使团队能够专注于各个方面,而不会忽略大局。
从数据处理到模型部署,堆栈中的每一层都代表一种特定功能,从而更容易识别依赖关系、分配资源和系统地应对挑战。这种模块化视图提高了清晰度,尤其是在多学科团队中工作时,因为它能让大家共同理解各种组件是如何交互的。
不同的 AI 应用程序将涉及 AI 堆栈中的多个层。例如,Red Hat OpenShift 是一个企业级 Kubernetes 平台,旨在大规模管理容器化应用程序,几乎用于 AI 堆栈的所有层。
AI 领域的不同参与者以不同的方式组织 AI 堆栈,以不同的顺序排列组件,或强调不同的组件或功能。这是因为,无论是在用例层面还是在组织层面,AI 的方法都会有所不同。此外,AI 开发环境在不断变化。
接下来是企业 AI 堆栈的通用版本。您可以通过查看 IBM 的生成式 AI 技术栈,了解更多有关 IBM 的生成式 AI (gen AI) 和大型语言模型 (LLM) (想一想 OpenAI 的 GPT)的方法。
最新的 AI 新闻 + 洞察分析
在每周的 Think 时事通讯中,发现专家精选的有关 AI、云等的洞察分析和新闻。
立即订阅
基础设施层
AI 基础设施层是构建和部署 AI 系统的基础。它可提供有效开发、训练和运行 AI 模型所需的计算能力、物理存储空间和工具。这一层由几个不同的关键组件组成,支持从初始实验到大规模部署的整个 AI 生命周期。
计算
处理数据需要物理硬件。芯片可以针对 AI 工作量进行优化:被称为 AI 加速器的高性能处理单元(GPU、CPU 和 TPU)可大幅减少复杂模型的训练时间。此外,利用分布式计算有助于开发尖端的资源密集型系统,例如大型语言模型。
云服务平台(例如:AWS、Microsoft Azure、Google Cloud 和 IBM Cloud)可灵活地扩大或缩小资源规模,使各种规模的企业都能使用,而边缘计算支持远程或低带宽环境下做出实时决策。计算层与协调工具紧密集成,可优化资源分配并帮助确保成本效益。
存储
物理存储系统必须处理整个 AI 生命周期中使用的大量数据,从原始数据集到模型权重和日志。高吞吐量存储解决方案支持快速数据访问,这对于训练深度学习模型等计算密集型任务至关重要。
可扩展性是另一个关键功能,因为 HDFS 等分布式文件系统或对象存储系统 (Amazon S3) 可满足不断增长的数据需求。这些系统通常采用分层存储策略,将经常访问的数据保存在高速介质上,而将较少使用的数据归档到速度较慢、成本效益较高的解决方案上。
强大的备份和恢复机制进一步提高了数据的弹性,将本地和云存储选项结合起来,以防止故障发生。
联网
AI 通常需要以最小的延迟将大量数据从一个地方移动到另一个地方。网络通过连接各种基础设施组件来补充存储空间,从而实现顺畅的数据传输和协作。
Mixture of Experts | 4 月 25 日,第 52 集
解码 AI:每周新闻摘要
加入我们由工程师、研究人员、产品负责人等组成的世界级专家团队,他们将突破 AI 的喧嚣,为您呈现最新的 AI 新闻和洞察分析。
观看最新播客节目
数据层
这是 AI 堆栈的另一个基础部分,重点是为 AI 模型收集、存储和准备数据。它包括数据库、数据湖和数据仓库。数据科学家使用各种工具进行数据摄取、清理和预处理,这些工具也是该数据管理层的一部分。
准备充分的高质量数据可支持模型有效学习,从而做出更好的预测和决策。相反,质量差或存在偏见的数据可能会影响 AI 模型的准确性和公平性,从而导致次优结果。通过投资强大的数据层,组织可以为成功实施 AI 奠定基础。
数据摄取和存储
数据可以从结构化数据库、非结构化文本文件、图像、IoT 设备、应用编程接口 (API) 或用户交互等各种来源获取。存储基础设施必须能够处理大量不同的数据,同时保持可靠性和可访问性。
技术包括关系数据库(例如:MySQL 和 PostgreSQL)、NoSQL 数据库(例如:MongoDB 和 Cassandra)和数据湖(例如:Hadoop),用于处理结构化和非结构化数据。
摄取包括将数据从各种来源导入存储系统。Apache Kafka 等工具可自动执行和管理数据摄取管道,有助于确保数据顺利流入系统。
数据预处理
在 AI 模型中使用原始数据之前,通常需要对其进行清理、规范化和转换。这包括删除重复数据、填补缺失值、规范格式和编码分类变量。
编程语言 Python 提供了用于此目的的免费库,其他工具(包括 Pandas、NumPy 或 Apache Spark)也常用于预处理。
数据注释和标记
对于监督学习,通常需要标记数据,模型才能进行学习。这包括标记图像、分类文本或标记相关特征。Labelbox、Amazon SageMaker Ground Truth 等平台和 LabelImg 等开源工具为注释工作流提供了便利。
数据安全性与合规性
数据存储和数据处理必须遵守隐私法(例如:GDPR 和 CCPA)。通常采用加密、访问控制和匿名技术来保护敏感数据。
模型开发层
这是设计、训练和微调 AI 模型以解决特定问题的地方,决定了 AI 系统的核心功能和智能。它建立在数据层的基础上,使用经过处理和清理的数据来训练能够学习模式、进行预测或生成输出的算法。
这一层还与数据层建立了反馈循环,以便在获得新数据时进行再训练和改进。这一层是 AI 生命周期的核心,因为它决定了系统在实际应用中的表现。
AI 框架和库
机器学习 (ML) 和深度学习框架简化了模型的创建和训练。常用的工具包括 TensorFlow、PyTorch、Scikit-learn、Keras 和 XGBoost,它们分别适用于不同类型的 AI 任务,如计算机视觉、自然语言处理 (NLP) 或表格数据分析。
算法选择
选择正确的机器学习算法是实现最佳性能的关键。算法种类繁多,从用于简单任务的线性回归和决策树,到神经网络和转换器等复杂架构,不一而足。选择取决于数据类型、问题领域和计算限制等因素。
模型训练
训练包括向模型输入标记数据,使其能够学习模式和关系。对于复杂的模型来说,这一步骤需要大量的计算资源。训练过程包括设置超参数(例如:学习率和批量大小),并使用梯度下降等技术迭代优化模型。
特征工程和调整
特征工程将原始数据转换为对模型有意义的输入。这一步骤可能包括缩放、编码、降维或创建新的衍生特征。
预训练模型和迁移学习
使用预训练模型(例如 BERT 和 ResNet)可以显著减少开发时间和计算成本。迁移学习使这些模型适应新任务,只需最少的额外训练。
验证和优化
模型开发完成后,通常需要在部署之前对其进行优化和微调。这可能包括超参数调整、模型压缩和模型验证。
在部署之前,使用单独的验证数据集和测试数据集对模型进行评估,以衡量包括准确率、精确度、召回率和 F1 分数在内的性能指标。这一步骤有助于确保模型具有良好的泛化能力,并能在未知的数据上可靠地运行。
模型部署层
模型部署层是机器学习模型从开发转变为实际使用的地方,在实时环境中提供预测或推理。
部署包括将模型打包成可部署格式,通常使用容器化技术,以促进不同环境间的一致性和可移植性。然后使用协调平台对这些容器进行管理和扩展,从而实现负载平衡、容错和高可用性。
所部署的模型通常通过 API 或微服务(使用 TensorFlow Serving、NVIDIA Triton 等框架或定制解决方案)进行公开,从而实现与业务系统、移动应用程序或网络平台的无缝整合。
应用层
应用层是将 AI 模型集成到实际系统中的地方,以提供可操作的洞察分析并推动决策,因此是 AI 堆栈中最面向用户的部分。这一层将 AI 功能嵌入软件应用程序、产品和服务中。
在此阶段,AI 模型成为业务逻辑的一部分,可自动执行任务、增强工作流或支持智能功能(例如推荐系统、预测性分析、自然语言处理或计算机视觉)。这些功能通常通过 API 访问,或嵌入到微服务中,鼓励与应用生态系统的其他组件进行无缝交互。
应用层的一个重点是可用性。AI 功能通常采用直观的用户界面 (UI),利用可视化和其他展示方式,以清晰、可解释的方式传达信息,使用户能够理解 AI 驱动的洞察分析并采取行动。
例如,欺诈检测 AI 可能会标记金融平台上的可疑交易,并通过自动化生成通知,而聊天机器人用户体验则与用户实时互动。
可观测性和治理层
可观测性层有助于监控、跟踪和评估 AI 工作流。它提供了了解 AI 模型在现实环境中的表现所需的可视性和洞察分析,使团队能够及时发现和解决问题,维护系统健康,并随着时间的推移不断提高性能。
可观测层的核心是跟踪与 AI 模型及其运行基础设施相关的各种指标的工具和框架。
治理层是一个总体框架,有助于确保 AI 系统的部署、使用和维护是负责任、合乎道德的,并且符合组织和社会标准。
这一层对于管理风险、提高透明度和建立对 AI 技术的信任至关重要。它涵盖了根据法律法规、伦理原则和组织目标监督 AI 模型生命周期的政策和流程。
治理层的主要功能是制定数据收集和使用政策以及合规框架,以遵守《通用数据保护条例》(GDPR)、《健康保险流通与责任法案》(HIPAA) 或包括《欧盟 AI 法案》在内的 AI 特定指导方针等法规。这些框架规定了如何收集、存储和使用数据,从而鼓励隐私和安全。
此外,治理还包括创建可审计性和可追溯性机制,使组织能够记录和跟踪 AI 决策、模型变化和数据使用情况,这对于问责制和解决争议或错误至关重要。
治理层还解决了 AI 系统中的公平性、偏差和可解释性问题。这涉及采用工具和技术来检测和减轻训练数据或模型输出中的偏差,帮助鼓励 AI 系统在不同人群中公平运行。
AI 堆栈方法的优点
将 AI 视为一个堆栈,可提高可扩展性、灵活性和效率。团队可以升级特定层,从最新进展中获益,而无需彻底改造整个系统,从而随着技术和业务需求的发展,实现迭代改进和调整。
例如,您可以在基础设施层从一个云提供商切换到另一个云提供商,或者在模型开发层采用新的机器学习框架,而不会中断应用程序。
这种分层的视角也使 AI 生命周期的每个阶段更容易进行基准测试和监控,有助于确保每个步骤都能维持性能、合规性和可靠性。堆栈方法简化了 AI 的复杂性,使各种规模的组织都能更容易地理解和操作 AI。