当前位置:   article > 正文

DataOps、MLOps 和 AIOps,你要的是哪个Ops?

ai ops

1b4c9c8bb733c0dcbc95ca580b210133.png作者 | Merelda Wu

策划 | 田晓旭

如何在 DataOps、MLOps 和 AIOps 之间进行选择?大数据团队应该采取哪种 Ops?

两年前,由于笔者领导的运维团队效率低下,“赢得”了耻辱的勋章。要说明的是笔者具有数据科学和机器学习的背景,因此,想当然的从工程团队的同事那里学来了 DevOps,以下为笔者以第一人称讲述事情的经过与技术细节。

对于学习DevOps,这在当时是不可思议的,因为我们的数据科学家就坐在数据工程师的旁边。我们遵循了所有敏捷实践——每天开站会,讨论阻碍我们的因素,并没有那种“隔墙扔砖”的状态。我们密切合作,但进展很缓慢,团队成员很沮丧。

过了两年,我终于理解了 DevOps 的真正含义。它在数据团队中是如此的相同,又是如此的不同。

在讨论以数据为中心的 Ops 之前,让我们先从软件开始。它们有太多的相似之处和对比了,请耐心听我说……

自从 2000 年末 DevOps 普及以来,软件行业就一直痴迷于各种 Ops 术语。十年前,从软件开发到部署的方式早已推陈出新。软件工程师开发应用程序,然后将其交给运维工程师。应用程序在部署过程中经常会出现故障,并在团队之间造成重大摩擦。

DevOps 实践的目的是使部署过程更加顺畅。其理念是将自动化视为构建和部署软件应用程序的一等公民。

这种方式彻底改变了整个行业。许多组织开始通过组建跨职能的团队来管理整个 SDLC。团队会搭建基础设施(基础设施工程师),开发应用程序 (软件工程师),构建 CI/CD 管道(DevOps 工程师),部署应用程序(每个工程师),然后持续监控和观察应用程序 (站点可靠性工程师)。

在一个大型的团队中,不同的工程师都有各自的主要职能。但在较小的团队中,一名工程师往往要扮演多种角色。理想的情况是让许多团队成员能够履行多项职能,这样就可以消除瓶颈和对关键人员的依赖。所以实际上……

DevOps 与其说是一项工作职能,不如说是一种实践或文化。在构建任何软件时都应该采用它。

随着 DevOps 的兴起,各种 Ops 也应运而生了。

7cea6b85fe4f2ffcd01a9bb7a15e9e3b.png软件开发世界中存在的各种 Ops

SecOps 以安全为核心,GitOps 致力于持续交付,NetOps 确保网络能够支持数据流,ITOps 专注于软件交付之外的运维任务。但总的来说,这些 Ops 的基石都是源于 DevOps 承诺的愿景:

“以最低的错误率,尽可能快的速度交付软件”

五年前,所有人都鼓吹“数据是新石油”(Data is the new Oil)。世界各地的领导者开始投入大量资源,组建大数据团队来挖掘这些宝贵的资产。对这些团队来说,交付的压力是巨大的——毕竟,我们怎么能辜负“新石油”的承诺呢?随着业务的快速扩张,分析团队也经历了同样的悲痛。

然后我们实现了所有的一切。

数据科学家成为了 21 世纪最性感的职业。我们正处于数据和分析的黄金时代。每个高管都有一个仪表盘。这个仪表盘包含了来自整个组织的数据和嵌入的预测模型。每个客户都有一个基于其行为的个性化推荐。

但是,现在添加一个新功能需要花费数周甚至数月的时间。数据模式很混乱,没有人知道我们使用的活跃用户定义是来自信贷团队的还是来自营销团队的。我们在将模型投入生产时变得谨慎,因为我们不确定它会带来什么破坏。

因此,以数据为中心的社区站在了一起,承诺不会因为管理不善而导致效率低下。从那时起,各种以数据为中心的 Ops 也应运而生了……

e9112b5c8d994ababe8386b9cc080fb9.png在以数据为中心的团队中诞生的各种 Ops: DataOps、MLOps、AIOps

1DataOps vs MLOps vs DevOps(以及 AIOps?)

注:在本文中,分析团队是指使用 SQL/PowerBI 来生成业务洞察力的传统 BI 团队。AI 团队是指使用大数据技术构建高级分析和机器学习模型的团队。有时他们是同一个团队,但我们会将他们分开,这样能更容易地解释相应概念。

为了理解所有这些不同的 Ops,让我们来看一下数据是如何在组织中流动的:

  • 通过客户与软件程序的交互产生数据。

  • 软件将数据存储在应用程序的数据库中。

  • 分析团队根据这些来自不同团队的应用程序数据库构建 ETL。

  • 分析团队为业务用户构建报表和仪表盘,以协助他们做出以数据为驱动的决策。

  • 然后,数据工程师将原始数据、合并了的数据集(来自分析团队)和其他非结构化的数据集整合到某种形式的数据湖中。

  • 然后,数据科学家利用这些海量的数据集建立模型。

  • 然后,这些模型利用用户生成的新数据进行预测。

  • 然后,软件工程师将预测结果呈现给用户,

  • 这样的循环不断进行下去……

我们知道,DevOps 的诞生是由于开发团队和运维团队之间产生了摩擦。因此,可以想象一下,在运维、软件、分析和 AI4 个团队之间进行交互会有多痛苦。

为了说明这些不同的 Ops 是如何解决上述过程的,这里有一个图表,它绘制了每个工作职能在整个时间轴上所执行的一些任务。

bbd31c159cb3985d2a733778bad3bc3d.png每个工作职能在时间轴上所执行的任务图

理想情况下,应在项目开始时采用 X-Ops 文化,并在整个过程中实施。

总体而言之,以下就是每种 Ops 的具体含义:

DevOps 更快地交付软件

一系列旨在消除开发和运维团队之间障碍的实践,以便更快地构建和部署软件。它通常会被工程团队所采用,包括 DevOps 工程师、基础设施工程师、软件工程师、站点可靠性工程师和数据工程师。

DataOps 更快地交付数据

一系列旨在提高数据分析质量并缩短分析周期的实践。DataOps 的主要任务包括数据标记、数据测试、数据管道编排、数据版本控制和数据监控。分析和大数据团队是 DataOps 的主要操作者,但是任何生成和使用数据的人都应该采用良好的 DataOps 实践。这包括数据分析师、BI 分析师、数据科学家、数据工程师,有时还包括软件工程师。

MLOps 更快地交付机器学习模型

一系列设计、构建和管理可重现、可测试和可持续的基于 ML 的软件实践。对于大数据 / 机器学习团队,MLOps 包含了大多数 DataOps 的任务以及其他特定于 ML 的任务,例如模型版本控制、测试、验证和监控。

附加:AIOps 利用 AI 的功能增强了 DevOps 工具

有时人们错误地将 MLOps 称为 AIOps,但它们是完全不同的。以下说明来自 Gartner(高德纳,美国咨询公司):

AIOps 平台利用大数据、现代机器学习以及其他先进的分析技术,直接或间接地增强 IT 运维(监控、自动化和服务台),具有前瞻性、个性化以及动态的洞察力。

因此,AIOps 通常是利用 AI 技术来增强服务产品的 DevOps 工具。AWS Cloud Watch 提供的报警和异常检测是 AIOps 的一个很好的例子。

2是原则不是工作角色

存在的一种误解是:为了达到这些 Ops 所承诺的效率,需要从选择正确的技术开始。事实上,技术并不是最重要的。

DataOps、MLOps 和 DevOps 的实践必须是与语言、框架、平台和基础设施无关的。

每个人都有不同的工作流程,该工作流程应该由相应的原则来决定,而不是你想要尝试的技术,或者最流行的技术。技术先行的陷阱是,如果你想用锤子,那么一切对你来说都像是钉子。

所有的 Ops 都具有相同的 7 个首要原则,但是每个原则又都有其细微的差别:

 1. 合规

DevOps 通常会担心网络和应用程序的安全性。在 MLOps 领域,金融和医疗保健等行业通常需要模型的可解释性。DataOps 需要确保数据产品符合 GDPR/HIPPA 等法规。

工具:PySyft 能够解耦模型训练过程中的私有数据,AirClope 能够匿名化数据。Awesome AI Guidelines 能够基于 AI 的原则、标准和规范进行管理。

 2. 迭代开发

该原则源于敏捷方法论,它专注于以可持续的方式不断地产生业务价值。产品经过迭代设计、构建、测试和部署,以最大程度地实现快速失败并不断学习。

 3. 可重现性

软件系统通常是确定性的:代码每次都应该以完全相同的方式运行。因此,为了确保可重现性,DevOps 只需跟踪代码即可。

然而,机器学习模型经常会因为数据漂移而被重新训练。为了重现结果,MLOps 需要对模型进行版本控制,DataOps 需要对数据进行版本控制。当被审计师问到“产生这个特定的结果,需要使用哪个模型,需要使用哪些数据来训练该模型”时,数据科学家需要能够回答这个问题。

工具:实验跟踪工具,比如 KubeFlow、MLFlow、SageMaker,它们都具有将元数据链接到实验运行中的功能。Pachyderm 和 DVC 可用于数据版本控制。

 4. 测试

软件测试包括单元测试、集成测试和回归测试。DataOps 需要进行严格的数据测试,包括模式变更、数据漂移、特征工程后的数据验证等。从 ML 的角度来看,模型的准确性、安全性、偏差 / 公平性、可解释性都需要测试。

工具:像 Shap、Lime 这样的库可用于可解释性,fiddler 可用于解释性监控,great expectation 可用于数据测试。

 5. 持续部署

机器学习模型的持续部署由三个组件构成:

  • 第一个组件是触发事件,即触发器是数据科学家的手动触发器、日历计划事件和阈值触发器吗?

  • 第二个组件是新模式的实际再培训。生成模型的脚本、数据和超参是什么?它们的版本以及它们之间的联系。

  • 最后一个组件是模型的实际部署,它必须由具有预警功能的部署管道进行编排。

工具: 大多数的工作流管理工具都具有此功能,比如 AWS SageMaker、AzureML、DataRobot 等。开源工具有 Seldon、Kubeflow 等。

 6. 自动化

自动化是 DevOps 的核心价值,实际上有很多专门针对自动化各个方面的工具。以下是一些机器学习项目相关的资源:

Awesome Machine Learning

https://github.com/josephmisiti/awesome-machine-learning

Awesome Production Machine Learning

https://github.com/ethicalml/awesome-production-machine-learning

 7. 监控

软件应用程序需要监控,机器学习模型和数据管道也需要监控。对于 DataOps 来说,重要的是监控新数据的分布,以发现是否有任何数据和 / 或概念的漂移。在 MLOps 领域,除了模型降级之外,如果你的模型具有公共 API,那么监控对抗性攻击也是至关重要的。

工具: 大多数工作流管理框架都具有某种形式的监控。其他流行的工具包括用于监控度量指标的 Prometheus,用于数据和模型监控的 Orbit by Dessa。

3数据中台与DataOps

从实际应用来看,在面对与日俱增的数据量与全球蔓延的疫情的双重压力下,企业究竟应该如何利用数据技术停止低效的流程,来缩小数据和洞察力之间的差距?

快速实现数据驱动,推动企业加速数字化的变革。此时,以“云原生DataOps”为核心优势的数据中台建设,则成为智领云帮助企业摆脱困境迎接数字化挑战的看家武器。DataOps的核心任务是提高数据分析和管理的质量并缩短数据开发的周期,是高效打造数据中台的必经之路。

智领云联合创始人兼CTO宋文欣曾在采访中表示,DataOps涉及的技术和方法论非常复杂,相关的开源软件生态非常庞大,涉及领域包括数据集成、数据开发、数据质量、数据安全、数据门户等。而智领云提出云原生DataOps,则采用做减法的方式,通过云原生的方式集成相关软件生态,搭建中间层BDOS,让用户能够不直接面对复杂的DataOps技术。

也就是说,智领云正将复杂的问题简化,所有人可以在BDOS上面轻松地进行数据开发和数据管理。

4结论

采用正确的 X-Ops 文化来加快数据和机器学习驱动的软件产品的交付。请记住,原则胜过技术:

  • 培养跨学科技能: 培养 T 型个人和团队(弥合差距,协调问责制)

  • 尽早实现自动化(足够): 集中在一个技术栈上并实现自动化(减小工程过程的开销)

  • 以终为始: 在解决方案设计上提前投资,以减少从 PoC 到生产的摩擦

#智领云公司简介#

武汉智领云科技有限公司成立于2016年8月,专注于云计算、大数据领域前沿技术的研发。公司创始团队成员来自于推特(Twitter)、苹果(Apple)和艺电(EA)等硅谷知名企业,是硅谷最早一批从事云计算和大数据研究与实践的技术专家,拥有十多年的云计算、大数据系统的系统架构和系统开发经验。公司作为拥有云计算、大数据领域核心技术的高科技企业获得了来自硅谷和国内知名投资人和投资机构的投资。公司于2019年4月获得线性资本数千万元pre-A轮融资,2020年7月获得由金沙江联合领投、线性资本跟投的数千万元A轮融资。

公司为企业级客户提供以云原生DataOps为底座的大数据平台数据中台/大数据平台数据中台系统解决方案;帮助企业搭建数据和AI中台实现云原生DataOps,轻松打造业务数据能力闭环,掌握全面、及时、更多维度的业务现状,提升数据驱动应用的迭代和发布速度;实现系统资产(人/资源/数据/应用) 在同一系统中的统一管理,建立数字化运营体系,并最终完成数据驱动的数字化转型。

公司在能源、教育、医疗健康、物联网、金融等行业同国内外很多知名企业和上市公司建立了合作关系,包括:D2IQ、埃克森美孚(中国)、一汽集团、极狐(GitLab中国)、南瑞信通、万达信息股份、中亦安图、深圳智宇、长江云通、湖北楚天云、万方数据股份、天喻教育、广州畅驿、上海和今、南京赛信等。公司与合作伙伴在多个领域中展开紧密的合作,充分利用各自的优势,共同为企业客户提供更有价值的云计算和大数据产品和技术服务。

原文链接:

https://towardsdatascience.com/what-the-ops-are-you-talking-about-518b1b1a2694

 - FIN -

f2107b976985390bd0bfd1226140c37f.png

更多精彩推

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/Guff_9hys/article/detail/1016659
推荐阅读