赞
踩
随着人工智能越来越多地应用于商业应用,简化人工智能系统(尤其是机器学习模型)的开发和持续管理的新实践也不断涌现。MLOps 已成为一种基于 DevOps 原则实施机器学习的流行方法。
现在,随着 GPT-3 等大型语言模型 (LLM) 的兴起,一系列新的功能和挑战也随之出现。因此,LLMOps 的独特实践正在形成,以满足在生产中扩展和管理大型语言 AI 模型的独特需求。
让我们来分析一下整个模型生命周期中 MLOps 和 LLMOps 之间的异同:
最后,我将分享一个框架,用于确定贵组织中不同 AI 模型的正确操作化策略。让我们开始吧!
首先,让我们了解一下这两种类型的人工智能的区别:
机器学习利用在大型数据集上训练的统计模型来执行分类、预测、模式识别等任务。需要数据科学和机器学习工程方面的专业知识。
GPT-3 等 LLM 经过大量文本语料库的训练,可以生成类似人类的语言并模仿推理和对话。非专家也可通过文本提示来使用。
这些差异导致了不同的操作需求。
在生产中部署任何人工智能都会面临挑战,包括:
模型监控——跟踪模型性能、准确性和漂移
数据管理——对训练数据进行版本控制,监控新数据
合规性——监管和道德合规性
协作——协调数据科学家、工程师、合规专家之间的工作
迭代——用新数据重新训练模型
规模——以低延迟为大量用户提供预测服务
访问控制——管理模型访问授权
概念漂移——随着时间的推移,性能下降
为应对这些 AI Ops 挑战,专门的实践正在涌现。我们将首先检查 MLOps 成熟度。
MLOps 将 CI/CD、自动化和监控等 DevOps 最佳实践引入 ML 管道:
持续集成和交付
基础设施配置
模型注册
监控和可观察性
一致的环境
自动化测试
模型治理
当有效实施时,MLOps 可以实现敏捷、可靠的 ML 模型开发和运营。
接下来让我们探索建立在这些基础上的新兴LLMOps学科。
LLMOps 将 MLOps 基础知识应用于大型语言模型的独特需求:
预建基础
数据最小化
专用硬件
可解释性
快速编程
机密数据
概念漂移
分布式执行
让我们更深入地探讨为 LLM 量身定制 MLOps 原则。
虽然基础 MLOps 模式仍然适用,但架构必须适应 LLM 的独特需求:
查询模型和管理容量的界面。可集成到应用程序和监控中。
LLM 分为多个分区并分布在各个服务器上。由 Kubernetes 或集群管理器进行管理。
缓存、请求合并和预测扩展等策略可以最大限度地提高吞吐量。
根据需求预测和可抢占容量进行自动扩展。
LLM 计算需要在阶段之间移动大量数据。RDMA 网络可加速计算。
修剪,量化,提炼等方法来优化尺寸和速度。
新的硬件,如 TPU 舱、推理加速器、针对 LLM 优化的高内存。
将请求分解到专门的模型组件中,而不是进行整体处理。
优化完整的软件硬件堆栈可实现可扩展的 LLM 部署。
大语言模型 (LLM) 的监控重点如下:
用户指标——查询延迟、错误率、可用性
生成内容审计——抽样内容质量、敏感度、抄袭
模型盗用——检测模型抄袭违规行为
概念漂移——新数据的准确性下降
利用率——吞吐量、饱和度、空闲时间优化成本
道德——检查输出是否存在潜在危害
合规性——根据监管和政策护栏进行验证
安全性——未经授权的访问、异常检测、滥用
丰富的指标为模型健康和风险提供了广泛的可见性。
现代 DevOps 实践加速了 LLM 项目:
版本控制——为可测试性和可重用性而编纂的模型、配置和提示
自动化测试——对关键模型组件进行单元测试、集成测试和回归测试
模块化架构——解耦的组件实现独立迭代
基础设施即代码— Terraform、CloudFormation、Pulumi 用于配置环境
CI/CD 管道——自动快速工程、测试、模型部署
蓝/绿部署——通过分阶段部署降低风险
部署后验证——新模型的自动冒烟测试
GitOps——通过 Git 拉取请求进行配置和部署
不可变基础设施——一次性组件可防止配置漂移
端到端自动化和基于 Git 的协作最大限度地减少了错误和延迟。
治理策略有助于降低 LLM 风险:
治理对于可靠且负责任的 LLM 采用至关重要。
让我们看一些 LLM 操作化的例子:
Anthropic — 使用 Kubernetes 和微服务在服务器之间分发 Claude LLM。通过自动扩展精心管理容量。
AI21 实验室——使用量化和修剪将 Jurassic-1 模型压缩 100 倍,以便从边缘设备提供服务。
Cohere——通过将所有预测运行到单独的反毒性分类模型来检测有毒、有偏见的输出。
HuggingFace — EasyDataset 跟踪数据集版本和元数据。模型链接到提供完整谱系的数据集。
英特尔——使用英特尔 SGX 的硬件隔离区域可防止模型复制和 IP 盗窃。
这些展示了现实世界的 LLM 挑战的创造性解决方案。
实施 LLM 所涉及的一些主要风险包括:
安全漏洞——强化环境、监控异常
数据滥用——严格的访问控制、数据屏蔽、加密
模型退化——严格测试新版本,回滚计划
不可靠的输出——可解释性、低置信度预测的警告系统
有毒内容——内容过滤器、受限 API 以限制有害材料
违反政策——持续合规监控、审批工作流程
声誉损害——人工审计、质量保证测试代表回应
主动降低这些风险对于负责任地将 LLM 转化为生产至关重要。
在不久的将来,我们可以期待:
混合 AI 系统——将各种 ML、LLM 和基于规则的模型协调在一起。
MLOps + LLMOps 融合——在通用平台上统一所有 AI 模型的 DevOps。
基于 Kubernetes 的部署— 以 Kubernetes 为标准的容器化模型。
利用 LLM 的 ML 工具——自动化更多 MLOps 功能,如数据标记、特征工程。
云原生开发——将模型构建迁移到 SageMaker Studio Lab 等服务。
治理自动化——自动执行政策编码的护栏。
集成的 AI 开发流程将加速组织利用 ML 和 LLM 功能。
本指南涵盖了实施 ML 和 LLM AI 模型的关键考虑因素:
无论专注于 ML、LLM 还是两者兼而有之,周到的运营架构都能快速、可靠且负责任地部署 AI 创新。最终,AI 驱动的解决方案的稳健性取决于构建和运行它们的实践。通过采取“运营优先”的方法,企业可以放心地将 AI 功能扩展到最大潜力。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。