赞
踩
前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家。 点击跳转到网站
作为计算机科学的一个重要领域,机器学习也是目前人工智能领域非常活跃的分支之一。机器学习通过分析海量数据、总结规律,帮助人们解决众多实际问题。随着机器学习技术的发展,越来越多的企业将机器学习技术作为核心竞争力,并运用在实际业务中。
但是,机器学习应用落地并非一件轻松的事情,AI开发者往往需要面对各个环节的挑战。这些环节包括目标定义、数据收集、数据清洗、特征提取、模型选择、模型训练、模型部署和模型监控等,其中任何一个环节出现失误,都可能影响算法和策略在最终业务中落地的效果,造成成倍的损失。反过来看,利用工程化技术去优化模型的自学习能力,能让模型保持持续更新、迭代和演进,随着数据和业务的变化不断进行自适应,避免衰退,始终保持在最佳状态,为业务场景带来更好的效果、更多的价值。
除了效果之外,机器学习应用的开发效率也是阻碍落地的关键因素。像Google这样的互联网领头羊企业,其AI科学家与AI工程师也常常会遇到“开发一周,上线三月”的情况。因此需要针对每个模型花费数月时间进行正确性排查,覆盖模型鲁棒性、数据时序穿越、线上线下一致性、数据完整性等各个维度。
从团队协作角度来看,数据、模型、算法的开发和部署需要不同的技能和知识,需要团队敏捷地进行沟通和协作。因此,建设一种可以在任何时间、任何环境被信任的团队合作模式、沟通渠道以及反馈机制,形成一个如敏捷迭代、Kubernetes一样的事实标准,可方便AI工程师敏捷、快速地上线AI应用。
除了效果和效率两个AI开发者所关注的维度外,成本、人才、安全也是机器学习应用开发落地时需要权衡的。
正是在这样的背景下,MLOps快速成为机器学习生产落地中不可或缺的关键能力。构建一个靠谱、永远可以信任、从容应对新技术演进的机器学习系统,匹配让AI开发者高效且省心省力的机器学习应用开发流程,成为当前机器学习领域面临的极为关键的问题之一。
《MLOps工程实践:工具、技术与企业级应用》
陈雨强 郑曌 谭中意 卢冕 等著
第四范式创始人领衔撰写
腾讯、小米、百度、网易等分享MLOps工程经验
指导企业构建可靠、高效、可复用、可扩展机器学习模型
购买链接:京东官方自营店。
作为当今企业和研究人员关注的热点领域,MLOps相关的知识和实践仍然相对分散,因此,迫切需要一本系统化介绍MLOps实践方法的书籍。希望本书能够:
MLOps实践的推广和普及需要时间和努力,希望本书可以为研究人员提供全面、系统和实用的指南,以便他们在实际应用中构建可靠、高效和稳健的机器学习模型,实现业务价值最大化。
这是一本能指导企业利用MLOps技术构建可靠、高效、可复用、可扩展的机器学习模型,从而实现AI工程化落地的著作。本书由国内AI领域的独角兽企业第四范式的联合创始人领衔撰写,从工具、技术、企业级应用、成熟度评估4个维度对MLOps进行了全面的讲解。
本书的主要内容包括如下9个方面:
(1)MLOps的核心概念和方法,可以帮助读者全面了解MLOps的基本原理;
(2)MLOps涉及的几种角色,以及这些角色之间如何协作;
(3)机器学习项目的基础知识和全流程,是学习和应用MLOps的基础;
(4)MLOps中的数据处理、主要流水线工具Airflow和MLflow、特征平台和实时特征平台OpenMLDB、推理工具链Adlik,为读者系统讲解MLOps的技术和工具;
(5)云服务供应商的端到端MLOps解决方案;
(6)第四范式、网易、小米、腾讯、众安金融等企业的MLOps工程实践案例和经验;
(7)MLOps的成熟度模型,以及微软、谷歌和信通院对MLOps成熟度模型的划分;
(8)针对不同规模的企业和团队的MLOps最佳实践,帮助他们量身定做MLOps策略;
(9)MLOps的未来发展趋势,以及如何将新技术融入MLOps实践。
本书深入浅出、循序渐进地讲解了如何在实际项目中利用MLOps进行机器学习模型的部署、监控与优化,以及如何利用MLOps实现持续集成与持续交付等高效的工作流程。同时,本书通过企业级的MLOps案例和解决方案,帮助读者轻松掌握MLOps的设计思路以及学会应用MLOps解决实际问题。
本书旨在帮助读者掌握MLOps技术,从而构建可靠、可重复使用和可扩展的机器学习工作流程。我们更加强调实践和操作,通过示例来帮助读者更好地理解并应用这些技术和工具。
本书适用的读者对象如下。
本书作者根据自己多年在软件研发、运维、DevOps和机器学习等领域的从业经验,对MLOps这一新生事物的原理和工具进行了全面系统的介绍,并结合多家企业的实践案例总结整理出一系列MLOps最佳实践,覆盖端到端机器学习全生命周期,涉及AI科学家和AI工程师在内的多个角色,知识新颖,内容丰富,极具参考价值。相信大部分AI从业人员会从中受益,强烈推荐!
—— 崔宝秋 小米集团前副总裁
这是一本业界真正需要的书。它全面介绍了AI工程化落地的全过程,包括面对的挑战、要解决的问题、常用工具和平台,以及企业的实践案例。这样一本内容全面、翔实的工具书能让读者对AI技术在企业落地方面有比较深的认识。希望它能帮助更多企业AI的应用者、工程师跨越AI工程化的鸿沟。
—— 堵俊平 LFAI & DATA基金会前董事主席
本书介绍了MLOps的完整流程、方法论、开源工具,并包含了网易云音乐、众安保险、小米商城、腾讯金融等的一手实践案例,对行业内外的工程师都有很高的学习和参考价值。
—— 戈君 字节跳动架构师
bRPC项目创始人/Apache VP
MLOps可以使得人工智能应用从低效能的手工制作模式,逐渐演变成自动化的、高效的流水线生产模式,将有力地促进人工智能规模化应用。盼此关于MLOps的书也能为大家学习人工智能指明方向。
—— 孟伟 中兴通讯开源战略总监
本书不仅从原理上阐述了MLOps的基本概念、方法、核心技术,更从实践角度给出了MLOps全流程搭建工具,并提供了丰富的互联网大厂典型MLOps平台搭建案例,以飨读者。内容专业翔实,极具可操作性。强烈推荐给AI算法和平台工程师,常读常新,大有裨益。
—— 陶阳宇 腾讯机器学习平台部总监
MLOps是现代软件工程理念下的机器学习系统构建方法论,指导企业在智能化升级中构建AI中台。本书全面介绍了MLOps的核心技术,结合丰富的业界实践向读者展示了AI原生时代下的AI中台技术全貌!
—— 王耀 百度智能云技术委员会主席
MLOps可以降低人工智能应用开发和维护的技术门槛和成本,是人工智能走进各行各业的关键技术。本书介绍了业界多家领先企业在MLOps方面的实践经验,具有非常高的参考价值。
—— 汪源 网易副总裁
本书作者长期工作在业务或咨询第一线,从工程师视角介绍机器学习在企业实践中的落地,系统阐述机器学习在实际工作中的困难和解决方案,是一本很好的实践指南。
—— 于洋 众安保险首席风险官
MLOps最重要的任务是保证机器学习应用生命周期中各个环节紧密协作,让应用的智能程度不断提高,真正解决用户在现实世界中的问题。感谢谭中意等专家的长期努力,让我们在CSDN中文社区中能看到高质量的经验和智慧结晶。期待这本书能帮助我们的研究员和工程师跨越各式各样的AI应用大峡谷。
—— 邹欣 CSDN副总裁
- 目 录
-
- 作者简介
-
- 前言
-
- 第1章 全面了解MLOps1
-
- 1.1 人工智能的趋势和现状 1
-
- 1.1.1 趋势1:人工智能在企业中加速落地,彰显更多业务价值 1
-
- 1.1.2 趋势2:人工智能应用从以模型为中心向以数据为中心转变 3
-
- 1.1.3 现状:人工智能落地成功率低,
-
- 成本高 4
-
- 1.2 人工智能的问题、挑战以及应对措施 5
-
- 1.2.1 问题1:机器学习代码只是整个系统的一小部分 5
-
- 1.2.2 问题2:数据是最主要的问题 6
-
- 1.2.3 挑战:人工智能系统
-
- 如何规模化落地 7
-
- 1.2.4 应对措施:MLOps 8
-
- 1.3 MLOps简介 8
-
- 1.3.1 MLOps的定义 8
-
- 1.3.2 MLOps相关的工具和平台 12
-
- 1.3.3 MLOps的优势 13
-
- 1.4 MLOps与DevOps 14
-
- 1.4.1 DevOps的3个优点 14
-
- 1.4.2 MLOps延续了DevOps的优点 17
-
- 1.4.3 MLOps和DevOps的不同之处 19
-
- 1.4.4 MLOps和DevOps的目标与
-
- 实践理念 20
-
- 1.5 MLOps与其他XOps的区别 20
-
- 1.5.1 MLOps与AIOps的区别 21
-
- 1.5.2 MLOps与DataOps的区别 21
-
- 1.5.3 MLOps与ModelOps的区别 22
-
- 1.5.4 XOps的相同点:
-
- 都基于DevOps原则 22
-
- 1.6 本章小结 22
-
- 第2章 MLOps涉及的角色23
-
- 2.1 角色类型 23
-
- 2.1.1 产品经理 24
-
- 2.1.2 数据科学家 24
-
- 2.1.3 数据工程师 25
-
- 2.1.4 机器学习工程师 26
-
- 2.1.5 DevOps工程师 27
-
- 2.1.6 IT运维工程师 27
-
- 2.2 角色划分以及角色之间
-
- 存在的问题 28
-
- 2.2.1 角色划分 28
-
- 2.2.2 问题1:技术栈不一致导致人工智能模型线上、线下效果不一致 28
-
- 2.2.3 问题2:关注点不同导致对系统的
-
- 需求不同 29
-
- 2.2.4 协作问题及解决办法 30
-
- 2.3 本章小结 30
-
- 第3章 机器学习项目概论31
-
- 3.1 机器学习项目简介 31
-
- 3.1.1 机器学习的定义 31
-
- 3.1.2 机器学习相关概念 33
-
- 3.1.3 机器学习能解决的问题 37
-
- 3.1.4 机器学习项目度量 38
-
- 3.1.5 机器学习项目难以落地的
-
- 原因 41
-
- 3.2 深入理解机器学习项目全流程 44
-
- 3.2.1 方案调研 45
-
- 3.2.2 方案投产 49
-
- 3.3 本章小结 51
-
- 第4章 MLOps中的数据部分52
-
- 4.1 从以模型为中心到以数据为中心 52
-
- 4.1.1 以模型为中心的时代 52
-
- 4.1.2 以数据为中心的时代 53
-
- 4.2 MLOps中的数据生命周期管理 55
-
- 4.3 数据存储架构演进 56
-
- 4.4 MLOps中主要的数据问题及
-
- 解决方案 57
-
- 4.4.1 常见的数据质量问题及
-
- 解决方案 57
-
- 4.4.2 时序数据穿越问题及解决方案 59
-
- 4.4.3 离线和实时数据一致性问题及
-
- 解决方案 64
-
- 4.4.4 数据安全问题及解决方案 66
-
- 4.4.5 数据共享与复用问题及
-
- 解决方案 67
-
- 4.5 本章小结 67
-
- 第5章 流水线工具69
-
- 5.1 Airflow 69
-
- 5.1.1 Airflow的功能和应用场景 69
-
- 5.1.2 Airflow的核心概念 72
-
- 5.1.3 Airflow的使用方法 72
-
- 5.2 MLflow 80
-
- 5.2.1 MLflow的功能和应用场景 80
-
- 5.2.2 MLflow的核心概念 81
-
- 5.2.3 MLflow的使用方法 82
-
- 5.3 其他流水线工具 91
-
- 5.4 本章小结 93
-
- 第6章 特征平台94
-
- 6.1 特征平台的概念和起源 94
-
- 6.2 特征平台的特性 96
-
- 6.3 特征平台的现状 97
-
- 6.4 主流的特征平台 98
-
- 6.4.1 Tecton的特征平台 99
-
- 6.4.2 AWS的SageMaker特征平台 100
-
- 6.4.3 Databricks的特征平台 102
-
- 6.4.4 Feast项目 103
-
- 6.4.5 OpenMLDB项目 105
-
- 6.5 特征平台的发展趋势 106
-
- 6.6 本章小结 107
-
- 第7章 实时特征平台
-
- OpenMLDB108
-
- 7.1 实时特征平台构建方法论 108
-
- 7.1.1 机器学习闭环 108
-
- 7.1.2 实时特征计算 109
-
- 7.1.3 痛点:线上线下计算一致性
-
- 校验带来的高成本 110
-
- 7.1.4 目标:开发即上线 112
-
- 7.1.5 技术需求 112
-
- 7.1.6 抽象架构 113
-
- 7.1.7 OpenMLDB架构设计实践 114
-
- 7.2 OpenMLDB项目介绍 116
-
- 7.2.1 设计理念 116
-
- 7.2.2 生产级机器学习特征平台 116
-
- 7.2.3 核心特性 117
-
- 7.2.4 常见问题 117
-
- 7.3 核心模块—在线引擎 118
-
- 7.3.1 概览 118
-
- 7.3.2 Apache ZooKeeper 119
-
- 7.3.3 Nameserver 119
-
- 7.3.4 Tablet 120
-
- 7.4 核心数据结构 122
-
- 7.4.1 背景介绍 122
-
- 7.4.2 双层跳表索引 122
-
- 7.4.3 预聚合技术 124
-
- 7.4.4 性能表现 125
-
- 7.5 高级特性—主从集群部署 127
-
- 7.5.1 定义和目标 127
-
- 7.5.2 技术方案 127
-
- 7.5.3 主从集群搭建实践 130
-
- 7.5.4 主从集群部署常见问题 131
-
- 7.6 高级特性—双存储引擎 133
-
- 7.6.1 内存和磁盘双存储
-
- 引擎架构 133
-
- 7.6.2 功能支持对比 134
-
- 7.6.3 性能对比 135
-
- 7.7 执行流程介绍 136
-
- 7.7.1 执行流程概览 136
-
- 7.7.2 执行模式概览 137
-
- 7.7.3 离线模式 137
-
- 7.7.4 在线模式 138
-
- 7.7.5 请求模式 138
-
- 7.8 实践 139
-
- 7.8.1 准备 140
-
- 7.8.2 使用流程 141
-
- 7.8.3 实时特征计算的结果说明 144
-
- 7.9 生态整合—在线数据源Kafka 145
-
- 7.9.1 简介 145
-
- 7.9.2 准备工作 146
-
- 7.9.3 步骤1:启动OpenMLDB
-
- 并创建数据库 146
-
- 7.9.4 步骤2:启动Kafka
-
- 并创建Topic 147
-
- 7.9.5 步骤3:启动Connector 147
-
- 7.9.6 步骤4:测试 148
-
- 7.10 生态整合—离线数据源Hive 149
-
- 7.10.1 配置 149
-
- 7.10.2 数据类型 149
-
- 7.10.3 通过LIKE语法快速建表 150
-
- 7.10.4 将Hive数据导入
-
- OpenMLDB 150
-
- 7.10.5 将OpenMLDB数据
-
- 导出到Hive 151
-
- 7.11 案例:出租车行程时间预测 151
-
- 7.11.1 环境准备和预备知识 151
-
- 7.11.2 全流程演示 152
-
- 7.12 本章小结 155
-
- 第8章 Adlik推理工具链156
-
- 8.1 机器学习模型落地挑战 156
-
- 8.2 Adlik的优势 157
-
- 8.3 Adlik的架构 158
-
- 8.3.1 模型优化器 159
-
- 8.3.2 模型编译器 161
-
- 8.3.3 推理引擎模块 161
-
- 8.4 快速入门 164
-
- 8.4.1 编译模型 164
-
- 8.4.2 部署模型 166
-
- 8.4.3 模型推理 166
-
- 8.4.4 引入自定义运行时 167
-
- 8.5 Adlik端到端模型推理优化实践 168
-
- 8.5.1 模型结构优化 168
-
- 8.5.2 模型推理引擎 170
-
- 8.6 本章小结 171
-
- 第9章 云服务供应商的端到端MLOps解决方案172
-
- 9.1 认识SageMaker 173
-
- 9.1.1 SageMaker的主要组成
-
- 部分 173
-
- 9.1.2 广泛的数据源和数据集成
-
- 支持 174
-
- 9.2 无代码实现供应链中到货时间的
-
- 预测 176
-
- 9.2.1 数据准备 177
-
- 9.2.2 简单的数据合并 179
-
- 9.2.3 构建、训练和分析机器学习
-
- 模型 180
-
- 9.2.4 模型预测 183
-
- 9.3 应用SageMaker Notebook进行 MLOps 管理 183
-
- 9.3.1 数据导入 184
-
- 9.3.2 数据清洗和特征设计 184
-
- 9.3.3 模型训练 185
-
- 9.3.4 模型评估 186
-
- 9.3.5 模型上线 187
-
- 9.3.6 使用模型仓库和 Pipeline系统
-
- 管理训练成果 187
-
- 9.4 本章小结 194
-
- 第10章 MLOps 在反欺诈与推荐
-
- 系统中的应用196
-
- 10.1 案例1:信用卡交易反欺诈系统 196
-
- 10.1.1 定义业务目标 196
-
- 10.1.2 系统设计的挑战 198
-
- 10.1.3 数据准备与特征设计思路 201
-
- 10.1.4 系统设计与实现 202
-
- 10.2 案例2:推荐系统 205
-
- 10.2.1 推荐系统介绍 205
-
- 10.2.2 定义优化目标 206
-
- 10.2.3 系统设计挑战与实现思路 208
-
- 10.3 本章小结 210
-
- 第11章 网易云音乐实时模型大规模应用之道211
-
- 11.1 从云音乐直播推荐中的实时性
-
- 说起 211
-
- 11.1.1 直播对实时性的强需求 213
-
- 11.1.2 推荐引擎实时性的三要素 213
-
- 11.1.3 直播精排模型的实时化演进 216
-
- 11.2 实时增量模型的构建 216
-
- 11.2.1 实时特征快照 217
-
- 11.2.2 实时样本归因 219
-
- 11.2.3 实时样本拼接 222
-
- 11.2.4 增量训练和更新 223
-
- 11.2.5 线上效果 224
-
- 11.3 特征平台将实时能力泛化到
-
- 更多场景 225
-
- 11.4 FeatureBox 226
-
- 11.4.1 FeatureBox解决的问题 226
-
- 11.4.2 FeatureBox整体架构 227
-
- 11.4.3 DataHub模块 227
-
- 11.4.4 Transform模块 231
-
- 11.4.5 MFDL模块 232
-
- 11.4.6 Storage模块 233
-
- 11.4.7 Monitor模块 234
-
- 11.5 在线预估基于FeatureBox的
-
- 构建 236
-
- 11.5.1 特征与模型的高效迭代 236
-
- 11.5.2 高性能预估计算 242
-
- 11.5.3 预估与FeatureBox实时性
-
- 方案 246
-
- 11.6 本章小结 248
-
- 第12章 小米广告机器学习平台
-
- 实践249
-
- 12.1 小米广告一站式机器学习平台
-
- 简介 249
-
- 12.1.1 传统机器学习流程的问题 249
-
- 12.1.2 小米广告机器学习平台模块
-
- 简介 251
-
- 12.2 特征工程模块 252
-
- 12.2.1 特征工程简介 252
-
- 12.2.2 数据源管理 253
-
- 12.2.3 特征管理 253
-
- 12.2.4 样本管理 257
-
- 12.3 模型训练平台 259
-
- 12.3.1 算法管理 260
-
- 12.3.2 离线模型训练管理 261
-
- 12.3.3 模型更新 262
-
- 12.4 线上推理模块 264
-
- 12.4.1 线上推理服务介绍 264
-
- 12.4.2 高性能和高可用保证 266
-
- 12.4.3 模型部署 268
-
- 12.5 本章小结 273
-
- 第13章 腾讯金融推荐中台实践274
-
- 13.1 业务介绍 274
-
- 13.1.1 业务优化目标 274
-
- 13.1.2 业务特点 275
-
- 13.2 现状及挑战 276
-
- 13.2.1 推荐系统复杂性 277
-
- 13.2.2 算法工程技术壁垒 278
-
- 13.3 MLOps实践 278
-
- 13.4 推荐系统产品体系 280
-
- 13.4.1 特征系统 281
-
- 13.4.2 模型训练系统 281
-
- 13.4.3 模型服务系统 282
-
- 13.4.4 推荐运营系统 283
-
- 13.5 系统设计 283
-
- 13.5.1 特征系统 284
-
- 13.5.2 模型服务系统 290
-
- 13.6 本章小结 293
-
- 第14章 众安金融实时特征平台
-
- 实践294
-
- 14.1 众安金融的MLOps建设背景 294
-
- 14.2 众安金融的MLOps建设思路 295
-
- 14.2.1 众安金融的MLOps流程说明 295
-
- 14.2.2 众安金融特征平台
-
- 能力要求 297
-
- 14.3 实时特征平台的架构设计 297
-
- 14.3.1 实时特征平台架构说明 298
-
- 14.3.2 实时特征数据源层 298
-
- 14.3.3 实时特征平台的核心功能 299
-
- 14.4 实时业务特征计算 300
-
- 14.4.1 实时业务特征计算系统
-
- 设计 300
-
- 14.4.2 实时业务特征核心数据
-
- 模型 301
-
- 14.4.3 实时业务特征计算引擎 302
-
- 14.5 反欺诈场景中的特征计算 303
-
- 14.5.1 反欺诈特征计算系统设计 303
-
- 14.5.2 反欺诈特征分类说明 304
-
- 14.5.3 用户关系图谱实现方案 305
-
- 14.6 本章小结 306
-
- 第15章 MLOps成熟度模型308
-
- 15.1 能力成熟度模型概述 308
-
- 15.2 谷歌的MLOps成熟度模型 309
-
- 15.2.1 谷歌对MLOps的理解和
-
- 认识 309
-
- 15.2.2 谷歌对MLOps成熟度等级的
-
- 定义 310
-
- 15.3 微软的MLOps成熟度模型 317
-
- 15.3.1 微软对MLOps成熟度模型的
-
- 理解和认识 317
-
- 15.3.2 微软对MLOps成熟度等级的
-
- 定义 318
-
- 15.4 信通院的MLOps成熟度模型 322
-
- 15.4.1 需求管理能力子域
-
- 相关内容 323
-
- 15.4.2 数据工程能力子域
-
- 相关内容 325
-
- 15.5 本章小结 329

Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。