赞
踩
数字中台通过业务中台提供的共享业务能力为前台提供了强有力的炮火支撑,但想要了解战场情况、指挥炮火打响哪里,就需要数据中台,通过数据分析,产生智能,形成决策。业务与数据不断交融,才能更好地推动企业进行数智化转型。数据中台与业务中台共同承载着业务数据化与数据业务化的职能。与业务中台建设一样,数据中台建设也是一个非常复杂的系统工程。从广义上来讲,数据中台建设包含组织形态上的重工组织搭建与物理形态上的中台系统建设。
首先,站在全局视角谈谈如何定义企业的数据中台,数据中台能为企业带来哪些价值;然后,介绍建设数据中台通常有哪些路径,规划企业的数据中台在策略上需要注意哪些事项;最后,讲述数据中台的规划,建设和持续运营整个生命周期是如何开展的。
==数据中台是一种将企业沉睡的数据变成数据资产,持续使用数据、产生智能、为业务服务,从而实现数据价值变现的系统和机制。==通过数据中台提供的方法和运行机制,形成汇聚整合、提纯加工、建模处理、算法学习,并以共享服务的方式将数据提供给业务使用,从而与业务联动。再者,结合业务中台的数据生产能力,最终构成数据生产-消费-再生的闭环。位列更好的理解数据中台,我们将其与数据仓库、数据湖、BI、大数据等相关概念进行对比。
数据仓库是一个面向主体的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。因此,其重点在于数据的集合。数据仓库可使用维度建模方法论从业务过程中抽象出通用维度与度量,组成数据模型,为决策分析提供通用的数据分析能力。
数据中台与数据仓库相比,只是有四大优势。
第一,数据中台强调数据业务化,让数据用起来,满足企业数据分析和应用的需求。
第二,数据中台梳理的流程比数据仓库建设更加复杂和全面。数据中台增加了以企业的全局视角来梳理数据域的环节,这是数据中台建设中很重要的一环。数据域的梳理正好体现了中台化的能力。举个例子,新零售场景下,企业的交易场景有很多,包括自建商城渠道、第三方电商渠道、外面订单渠道、线下门店渠道等。建设数据中台时,就需要规划处一个交易域,此交易域要抽象出各种渠道的业务流程,并能覆盖线上、线下运营部门在运营时需要考核的维度和度量。因此数据中台建设过程要更多从企业全局出发,从人、或、场多维度打通数据,真正做到无论消费者从那个渠道进来,都能洞察其与本企业的接触轨迹。而数据仓库的建设则相对单一,专注于维度模型如何设计,如何拆解指标和维度,却很少关注基于人、货、场这些主体进行实体拉通,然后作出全局的画像数据供前端业务调用。
第三,数据中台建设的范畴远远大于数据仓库的建设,除了完成数据仓库的建模,还需要制定完善的数据治理方案,甚至在建设的过程中需要成立专门的数据治理委员会来促成复杂的数据治理工作。最重要的一点是,在数据中台的规划阶段就需要去主动迎合业务,需要全面梳理哪些业务场景需要利用数据的赋能才能形成业务闭环,因此,在建设数据中台的同时就必须着眼于业务场景的赋能。
第四,对于企业来讲,建设数据中台并不只是搭建一个能力平台。正如我们在《中台战略》一书中提到的,建设中台需要中台文化及相匹配的中台组织。因此,从宏观上来讲,数据中台承担着企业重新搭建数据组织的职能,倒逼企业为了运营好数据中台而建设一套能与之匹配的数据中台组织。数据仓库则纯粹注重于系统解决方案,并不涉及组织形态。
因此,简单来说,数据仓库重在建数据,而数据中台则将建、治、管、服放到同样的高度,数据仓库只是数据中台的一个子集。那我们为什么会从数据仓库发展到数据中台呢?因为传统的数据仓库已不能完全满足企业数据分析的需求。企业已从原来的统计分析转变为预测分析并提供标签、推荐算法,从被动分析转变为主动分析,从非实时分析转变为实时分析,并且从结构化数据转变为结构化、半结构化和非结构化的多元化数据。
与数据中台相关的概念还有数据湖(Data Lake)。数据湖是一种数据存储的概念,作为一个集中的存储库,他可以以自然格式存储任意规模的数据,包括来自关系数据库行和列的结构化数据,xml,json,日志等版结构化数据,电子邮件文档等非结构化数据,以及图像、音视频等二进制数据,从而实现数据的集中式管理。目前Hadoop是最常见的实现数据湖概念的技术。比如HBase可让数据湖保存海量数据,Spark可以使得数据湖批量分析叔叔,而Flink等可让数据湖实时接入和处理IoT数据等。
BI(商业智能)是分析数据并获取洞察,进而帮助企业作出决策的一些列方法、技术和软件。变比数据仓库,BI还包含数据挖掘、数据可视化等工具,并可支持用户在一定范围内任意组合维度与指标,从而上升到支持决策的层面,而不只是作为数据仓储。
数据中台页不等于大数据。数据中台是基于大数据、人工智能等技术构建的数据采、存、通、管、用的平台。数据中台需要以Hadoop、Spark等为代表的大数据处理技术做支撑,但绝不能将数据中台与大数据划等号。数据中台不只有大数据处理技术,还包括智能算法、与业务联动的特性、数据资产、数据工具等。
可以说数据中台是上述概念和技术的集大成者。
首先,大数据丰富的数据计算和存储技术为数据中台提供了强大的数据处理能力。
其次,数据中台作为企业数据的集结地,其底层也当然承载着数据湖的职能。
再次,数据仓库对数据的分域建模是数据中台的重要部分,它承载着将企业数据治理得井井有条的职能。
最后,基于强大的数据能力,结合业务场景提供实时、智能的服务和应用时数据中台的核心价值体现。
数据中台不等于大数据平台,数据中台的核心工作也并不是将企业的数据全部收集起来做汇总就够了。数据中台的使命是利用大数据技术、通过全局规划来治理好企业的数据资产,让数据使用者能随时随地地获取到可靠的数据。因此,数据中台一旦建成并得以持续运营,其价值将随着时间的推移将呈现指数级增长。数据中台的价值众多,下图详述其中三大价值;
帮助企业建立数据标准
促进中台组织形成
全面赋能业务,促使降本增效
数据中共建设是一个宏达的工程,涉及整体规划、组织搭建、中台落地与运营等方方面面的工作。
企业的数据中台在物理形态上分为三个层次:工具平台层、数据资产层、数据应用层。
随着大数据与人工智能技术的不断迭代以及商业大数据工具产品的推出,数据中台的架构设计大可不必从零开始,可以采购一站式的研发平台产品,或者基于一些开源产品进行组装。企业可根据自身情况进行权衡考虑,但无论采用那种方案,数据中台的架构设计以满足当前数据处理的全场景为基准。
以开源技术为例,数据中台的技术架构如图所示,总体来看一般包含以下几种功能:数据采集、数据计算、数据存储和数据服务;在研发、运维和公共服务方面包括离线开发、实时开发、数据资产、任务调度、数据安全、集群管理。
数据采集层
按数据的实时性,数据采集分为离线采集和实时采集。离线采集使用DataX和Sqoop,实时采集使用Kafka Connect、Flume、Kafka。
DataX:DataX是阿里云DataWorks数据集成的开源版本。
Sqoop:Sqoop(发音:skup)是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql…)间进行数据的传递,可以将一个关系型数据库*(例如 : MySQL ,Oracle ,Postgres等)*中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。
在离线数据采集中,建议使用DataX和Sqoop相结合。DataX适合用在数据量较小且采用非关系型数据库的场景,部署方式很简单。Sqoop适合用在数据量较大且采用关系型数据库的场景。
在实时数据采集中,对于数据库的变更数据,如MySQL的binlog、Oracle的OGG,使用Kafka Connect进行数据的实时采集。对于其他数据,先将数据实时写成文件,然后采用Flume对文件内容进行实时采集。将实时采集后的数据推送到Kafka,有Flink进行数据处理。
数据计算采用YARN作为各种计算框架部署的执行调度平台,计算框架有MapReduce、Spark及Spark SQL、Flink、Spark MLlib等。
MapReduce是最早开源的大数据计算框架,虽然现在性能相对较差,但他的资源占用比较小,尤其是内存方面。因此在部分数据量过大,而其他计算框架由于硬件资源的限制(主要是内存限制)而无法执行的场景,可以将MapReduce作为备选框架。Spark及Spark SQL是在批处理方面拥有出色性能的成熟技术方案,适合大部分的离线处理场景。特别是在离线数据建模方面,建议使用Spark SQL进行数据处理,既能保证易用性,又能保证处理的性能。Flink是实时数据处理方面的首选,在处理的时效性、性能和易用性方面都有很大优势。
而机器学习一般采用Spark家族的的Spark MLlib为技术底座。Spark MLlib内置了大量的常规算法包,如随机森林、逻辑回归、决策树等,可以慢慢组大部分数据智能应用场景。同时,数据中台不断进化,也逐渐融入AI呢里。如人脸识别、以图搜图、智能客服等呢里的实现就需要AI平台。目前较为成熟的AI平台有TensorFlow及PyTorch。为实现物体的检测和识别,可使用SSD、YOLO和ResNet等深度学习模型,而在人脸检测和识别中则主要使用MTCNN、RetinaNet和ResNet,人脸检索可使用Facebook开源的针对人脸检索的Faiss框架。
Hive为大数据广泛使用的离线数据存储平台,用于存储数据中台的全量数据,在建模阶段可以使用Hive SQL、Spark SQL进行数据处理和建模。HBase为主流的大数据NoSQL,适合数据的快速实时读写。在实时数据处理时,可将数据实时保存到HBase中,并且可以从HBase中实时读取数据,从而满足数据的时效性。
Impala可以对Hive、HBase等大数据数据库进行准实时的数据分析,能满足对分析结果速度有一定要求的场景。
Phoenix是构建在HBase上的一个SQL层,能让我们用标准的JDBC API而不是HBase客户端API来创建表、插入数据和对HBase数据进行查询。
Presto是一个开源的分布式SQL查询引擎,适用于交互式分析查询。Presto支持Hive、HBase、MySQL等多种关系型和大数据数据库的查询,并且支持join表。对于对接自助分析和统一数据服务的场景,可以通过Presto来统一访问具体存储数据库,从而达到语法统一和数据源统一。
构建企业的中台需要站在高屋建瓴的视角,绝不是建设一个应用程序那么简单,或者建设一个报表系统那么直接。构建企业的数据中台也不例外。这是一个系统工程,包括从企业的大数据战略解读、当前所面临的数据痛点及未来几年的业务创新点分析,到技术选项、中台建设模式决策,甚至倒逼不合理的业务系统进行重构等方方面面的工作。
因此,我们建议在构建企业中台时,结合企业当前的组织现状、IT信息化现状、数据潜在应用等多个方面来考虑建设策略。
构建数据中台是一个复杂的系统工程,并且数据中台不像有些系统那样,一次建设,一劳永逸。需要做好充分的持久战准备,组织好运营数据中台的中台团队,为数据中台报价护航。
因此,在建设数据中台的过程中,各企业可能都会面临诸多挑战,比如:
前文提到数据中台建设是企业的系统工程,一定要站在高屋建瓴的视角来统筹规划。那么在规划的时候需要考虑哪些问题呢?需要整理企业的数据建设现状,已存在哪些数据成果,这可以大致分为三个方面:
1. 估算企业现有数据总量,来推导数据中台底层的硬件配置;
2. 根据数据体量和数据场景需要规划使用什么技术栈;
3. 结合实际情况规划数据中台建设路径;
我们建议将数据中台分为如下三个阶段来建设,
第一阶段:定规范,建平台,小闭环试点。以大平台为主,以某一领域数据应用为切入点,进行小范围试点,快速验证数据中台的价值。
第二阶段:全域建设,夯实数据资产。在第一阶段的基础设施之上全面展开,可覆盖企业主要数据域进行建设,夯实企业全局数据资产,做好数据资产管理工作,并持续围绕业务痛点进行赋能。
第三阶段:运营数据资产,价值变现。以第二阶段的数据资产建设成果为基础,持续运营数据资产,赋能业务。借助资产监控工具及时下线无用的数据资产,深度运营使用率较高的数据资产。
根据业务开展阶段不同,企业建设数据中台的路径可能不太一样,总体而言有以下三种路径,如下图所示。
系统都是为应用而生的,数据中台也不例外。要构建一套数据中台服务于企业内部和外部运营,需要有成熟的数据中台建设方法论作为指导。企业建设数据中台遵循的方法论就像菜谱,初学者根据菜谱按部就班就可以轻松完成一道道菜肴,高阶玩家根据菜谱可以查漏补缺,使厨艺精进。
数据中台建设方法论可分为高阶规划、系统设计、开发实施、试运行和持续运营5个阶段,如下图。
万丈高楼平地起,规划阶段之于数据中台建设,就相当于构建一座水库前的勘察和分析,了解构建水库目标、水源、蓄水、水库下游,为设计图纸提供基础支持。同样建设数据中台也需要对企业的数据源、存储数据的方式、数据服务诉求等信息进行摸查,构建未来的蓝图。对现状和将来了解的越清楚,对数据中台的轮廓就了解的越清楚,数据中台的成功就越有保障。
数据中台规划阶段可细分为业务架构师主导的业务规划和数据架构师主导的数据规划。这两部分内容是相辅相成的,由业务规划进行业务输入,由技术规划对数据现在进行探查,判断业务规划蓝图的可行性,最终形成可行的蓝图规划与应用设计。
1. 业务规划
业务规划分为三个步骤:业务调研、蓝图设计和应用设计。
1. 业务调研
业务调研主要包括以下两个方面。
第一,战略与组织解读。企业战略决定了数据中台的上线,也决定了企业对数据中台的期望和目标。企业战略不仅能折射出企业的数据诉求本质,也能体现出数据中台对企业的价值。因此,通过明确企业战略对企业运营提升的要求,可以抓住企业运营提升的关键环节,对公司管理现状进行诊断,分析数字化能力给企业带来的效率和效益提升,明确企业数字化优化的目标和范围。同时,明确企业的组织架构,熟悉企业的业务模式,了解企业的业务板块,梳理业务部门的业务流程。
第二,调研访谈。调研访谈是通过问卷或针对性访谈的形式,对业务专家进行调研的过程。在调研的过程中可以收集报表、汇报材料、报告、可视化看板、系统建设材料等信息辅助理解业务。调研访谈的目的是通过对业务专家的调用,了解企业于业务,了解业务诉求与痛点,为后续的蓝图设计和应用设计提供业务知识基础和输入。调研前需要对业务背景、行业知识、调研问卷分布做准备,以便达到期望的调研效果。可以将调研问卷提前分发给业务专家,以便业务专家更有针对性的准备问题答复,提高调研效率。调研后需要结合业务场景,对数据进行推导,得出指标需求。推导的过程是现在诉求-》需求推导-》解决手段-》场景推导-》指标推导。详见下图。
2. 蓝图设计 通过业务调研了解企业,结合数据现状与业务痛点,将企业不同实体的数据进行提炼、抽象,形成数据域,将数据资产按照一定的体系进行规整,再结合业务诉求对数据分析场景进行提炼,最终形成一张囊括企业数据现状与未来的蓝图,为后续数据中台的建设提供宏观与发展路线的指导。 蓝图设计可以从以下几个方面进行分析设计:数智化转型的一些考虑和战略、设计方法论、对客户业务的整体解析、数据中台价值化、分析链路梳理、数据域梳理和划分等。数据中台蓝图一般包括三部分:数据源、数据基础能力及数据洞察与智能应用规划。通过数据中台蓝图可以快速了解企业数据中台的范围与价值。 3. 应用设计 衔接蓝图设计,结合数据调研的成果判断数据可行性后,将数据分析场景、智能应用进行系统落地的可视化设计,形成PRD文档和原型进行产品设计与说明,最终促成应用的实现。 2. 技术调研 技术调研是对企业的IT整体现状进行摸查,调研内容包含企业主要业务及核心业务系统、整体网络拓扑现状、信息安全相关要求等。 对企业主要业务和核心业务系统的调研包括业务和技术两个方向。业务上梳理企业的主要业务及核心业务流程,技术上则梳理各业务系统及他们之间的数据流转关系。两者相互印证,输出企业的信息系统现状大图,并基于此确定后续的业务系统调研范围。 整体网络拓扑现状的梳理,有助于厘清企业业务数据的存储分布位置、数据传输的带宽限制等信息,为后续数据集成方案设计提供基础信息输入。 通过信息安全相关的调研了解企业内与信息安全相关的组织部门、规章制度等信息和要求,为后续制定数据处理和使用的流程规范提供依据。 3. 系统和数据调研 系统与数据调研的目的是厘清企业数据资源的种类、分布、存储及管理现状。系统与数据调研是按业务系统进行盘点的。系统盘点的范围来源于技术调研的输出。盘点项包括业务流程、业务动作、数据源、数据表、数据字典。该调研工作一般由技术主导。 业务历程及动作的调研,需要从使用者的角度出发,确认业务系统每个原子操作产生了哪些数据,数据存储在哪些数据表中。这部分的调研需要调研人员通过系统文档资料梳理系统流程,并通过实际操作来验证数据流程,最后结合数据字典将系统流程和数据表进行关联。 数据源盘点需关注数据源种类,如结构化、半结构化和非结构化数据,以及链接地址、账号、密码、可抽取数据的时间段等;数据表级别关注是否为核心表、时间戳字段、数据更新标识、表的总数据量、日增数据量等信息。 系统与数据调研完后,需输出相应的产出物,并与业务系统的相关人员就输出物中的产出项进行沟通和确认。在实际实施中,不同企业的信息系统建设情况也不尽相同,输出物中的内容项可能需要以迭代方式进行补充调研。 4. 总体规划输出 规划阶段包含业务侧和技术侧的调研,两边的调研工作可以并行开展。在业务侧完成调研及需求规划后,技术侧需要结合业务侧的产出进行相关的数据探查事项,主要目的是确认调研产出是否足够支撑业务的数据应用建设。 总体规划在最终定稿后,业务侧需输出指标、标签清单、数据应规划文档等,而技术侧需输出技术和系统调研的相关输出物,以及系统调研阶段的总结性报告。
在盘点了企业当前的数据应用需求及数据资产情况,并根据实际情况规划了数据中台的建设路径后,我们就可以进入非常重要的系统设计环节了。系统设计包含总体设计、数据设计及平台设计。
第一阶段的规划工作完成后,进入总体的架构设计阶段。此阶段需要回答以下问题:如何构建统一、规范、可共享的数据体系,如何避免数据的冗余和重复建设,如何规避数据烟囱和不一致性等。由阿里巴巴提出的oneData的核心思想是统一数据主体、统一数据建模、统一数据服务以及一系列的数据管理体系。在设计阶段,可以从这几个方面进行考虑与架构。这一阶段由技术架构师与模型设计师主导,规划设计出整体的数据架构、平台架构和研发规范,如下图:
数据中台的数据架构设计是基于需求调研阶段的业务需求、数据情况、完成数据中台概要设计工作。数据架构设计主要包含OneModel数据架构设计、OneID数据架构设计和OneService数据架构设计。
OneModel分一下四部分:
结合前期调用的业务需求和数据现状,从宏观层面规划出数据中台的各个模块、各个功能部件所用到的技术总体架构图。总体架构由数据采集、数据存储、数据流、网络、部署、安全等组成。
良好的数据模型可方便、有效地组织数据中台中存储的企业数据资产,所以数据模型的设计工作有必要遵循一定的规范和约束。团队在明确定义模型设计的相关实施规范及要求后,需要向参加数据中台建设的相关人员明确规范和要求,确保团队内统一标准,以保障和提升数据开发与运维管理的效率,并方便后续的知识移交和数据管理工作。规范应清晰的阐述模型定义与代码开发的相关约束。模型规范要明确数据架构中的分层、分层的命名,定义不同接入频率、不同系统表命名方式。代码研发规范层面应定义好各种不同用途、不同脚本类型的命名规范等。
数据设计包括数据集成、模型设计和服务详设,如下图。
数据集成需要解决不同源系统数据异构性问题。源业务系统的数据类型多种多样,有来源于关系型数据库的结构化数据,也有来源于非关系型数据库的非结构化数据即半结构化数据。
结构化数据一般以二维形式存储在关系型数据库中,对于这种数据类型,数据集成有3种方式:
除了数据读取的方式,还可以按数据量来分解数据集成策略:
非结构化数据一般没有固定的结构,各种文档、图片、视频、音频等都属于非结构化数据。对于这类数据,数据集成策略通常是直接整体存储,而且一般存储为二级制的数据格式。
除了结构化数据和非结构化数据,还有半结构化数据。半结构化数据的应用越来越广泛。半结构化数据带有用来分隔语义元素和数据记录的标记,具有自描述特性,常见的数据格式有JSON和XML。对于半结构化数据,数据集成策略同样可以实直接整体存储。但随着数据技术的发展,NoSQL数据库已经开源很好地支持半结构化数据的存储。NoSQL在逻辑表现形式上相当灵活,主要有4种模式:
数据模型可以分主题域模型、标签模型和算法模型。其中主题域模型是基础,似乎对数据标准化、规范化的过程。标签模型基于主题域模型将对象的各种标识打通归一,将跨业务板块、跨数据域的对象组织起来。算法模型基于主题域模型,将各对象的历史行为、属性等数据作为输入,利用算法能力分析和预测对象的行为。下面来详细介绍三种数据模型的设计。
首先看主题域模型设计。主题域模型也就是大家常说的数仓模型。数仓模型的设计方法论已经非常成熟,最权威的数仓模型设计是Kimball的维度建模。阿里巴巴在维度建模基础上进行了升华,沉淀了OneModel方法论,将数据从业务板块到业务域、业务流程、指标和维度,一层层梳理,构建出企业的指标体系并形成数仓模型。OneModel方法论强调从业务过程出发,站在数据应用与分析的角度,梳理出业务过程中涉及的维度及度量,并对业务过程中的度量进行规范定义,统一指标口径,消除指标二义性,形成统一的指标体系;同时,构建一致性维度及事实矩阵,并据此进行维度及事实模型设计。
主题域模型分以下三层:
数据服务按数据内容可分为主体分析类数据服务、标签类数据服务和算法类数据服务。
平台设计指的是大数据运行平台在资源规划、技术选型、部署方案等方面的设计,是根据总体架构中的平台架构展开的。平台能力具有通用性、扩展性和前瞻性是数据中台成功建设的基础。平台设计阶段将以客户现有数据体量及可预测的业务增长情况作为考量因素,对平台建设所需的资源进行预估和规划,产出平台及数据应用部署所需的资源清单、部署方案及相关人员在平台上的账号和权限的设计等。
资源规划:需要对支撑大数据平台所需的资源进行估算。一般可考虑未来3年企业的数据量,可借鉴的存储空间。资源估算公式如下:
技术选型:大数据技术选型的原则是考虑当前及未来一段时间可能使用的场景,根据场景来推导技术的选择。一般会从数据的采集、存储、计算、管理、运维等多方面考虑需要选择的技术或成熟产品来搭建大数据平台。比如,文件采集使用Flume到HDFS,数据库采集使用DataX到HDFS,计算与加工基于Hive存储、离线使用Spark SQL处理、实时采用Flink等。
开发实施阶段可分为环境搭建、数据集成、代码研发三个层面。
平台层面的环境搭建,包括大数据集群、数据研发平台、智能数据应用产品等相关工具的部署。平台的搭建按设计阶段数仓的资源规划和平台部署方案实施即可。在平台环境下、工具组件部署后,需要对平台环境进行测试,同时在产品工具层面,需要对企业进行相关产品的使用培训,并通过企业的验收。
数据集成方案从宏观上设计和规范了数据源级别的数据集成流程和同步策略。在当前阶段,需要对各数据源制定表级别的集成策略,形成数据同步清单,包括上云数据存量、日增量、分区字段、数据更新频率、存储周期、上云时间等相关信息,供具体实施时使用。数据集成工作实施后,还需要逐一对数据源进行数据监控及验证,以确保集成的数据无问题。
代码研发阶段包括数据研发和验证、应用研发和测试、性能测试三部分。数据研发与验证主要包括数据模型的业务代码开发、数据监控代码开发、数据准确性验证。从模型数据开发、数据监控开发到数据验证,再到模型上线,需要一整套开发流程来保障数据的产出。应用研发与测试主要包括数据应用层面的开发和测试工作,如数据服务、数据应用前端开发。性能测试包括数据产出时间、数据接口服务性能、数据应用访问性能等方面的测试。
数据中台上线之后,分析专题的指标口径、数据应用效果等多方面的数据准确性都需要通过真实的运行数据去验证。在这个时间段还不太适合全面对外发布,也不宜对外开放数据能力。通常我们需要进行一段时间的试运行。
为保障生产环境数据的准确性,需要现在测试环境基于企业的全量数据进行一段时间的试运行,主要包含以下几步。
1.数据迁移:增量模型涉及的存量数据需要进行一次全量的数据迁移,以保证数据的完整性,全量模型则直接按频度进行抽取即可。迁移前,需定制详细的迁移方案及步骤;迁移时,需要记录各个环节的关键数据,如迁移耗时、资源消耗情况等;迁移后,需总结并输出迁移报告。
2.数据跑批:完整运行数据中台的全流程任务,包括数据抽取、加工、服务提供及应用展现,分析各层级模型任务的运行耗时以及对应时间段的资源情况,并不断优化、调整运行任务的启动和依赖关系,以达到最佳的配置。
3.数据验证:是爱心核心关键指标、标签,进行数据准确性的验证,例如存量指标可与系统现有指标进行对比,增量指标则与模型设计内容逐层对比。
4.应用验证:对于对外服务接口类应用,联系应用方进行接口技术局验证,并完成全流程的拉通,优化调用的频次及时间点;对于报表及专题分析类应用,验证报表数据与数据中台侧数据的一致性,以及测试前端页面、展现数据的性能。
在试运行过程中,数据中台的指标或标签可能会因为业务侧的口径变更而进行历史数据的重刷动作。在这种情况下,要保证数据准确且可逆,有如下几点注意事项。
数据中台不是一锤子买卖,是需要持续经营的。在数据中台正式上线后,随着企业业务的不断发展,会接入更越来越多的数据源,数据的分析也将越来越精细,数据应用场景会更加丰富多样。同时,某些数据应用会因为企业业务方向的调整而废弃,这些已经过时的应用就需要及时清理。作为数据中台的建设者,不仅需要定期与数据使用者沟通,了解数据使用情况,了解这些数据到底带来了什么价值,还要通过系统查看指标、标签、专题、应用API这些资产的被调用情况,一次来判断是否需要优化等。
试运行稳定执行一段时间后,可按模块和迭代申请生产环境的正式上线动作,以交付阶段性的工作成果。在正式上线时,分以下两边进行。
系统上线后,制定相关的检测规则及告警机制,以保障数据中台的正常运行。检测规则可大致分为如下两类。
数据规则:数据一致性,主键唯一性,数据完整性
资源规则:服务器资源,如CPU、I/O等;存储告警规则。
检查规则执行完成后,根据检查结果制定告警策略,如异常告警阻断、异常告警不阻断。同时,通过短信、邮件等方式将检查结果进行告知,并制定告警升级机制。
系统上线后,跟进系统的运行、使用情况,综合分析以提炼新的需求点,创造更大的价值点,持续运营。数据中台的运营策略可从产品、应用、数据三方面进行。
数智化可概括为通过链接产生数据,基于数据产生智能,基于智能赋能商业,从而推动企业业务新的增长(参考第一章)
通过数据中台,将在线化数据转化为智能化数据,激活数据商业价值。通过持续的数据完善补充和训练学习,作出更加智能的决策,形成良性学习与反馈闭环,最终帮助企业实现数智升级转型。
智能营销的一般流程是基于运营目标定场景、定商品或服务、找人群、制定具体营销方案,其中最关键的因素是精准的消费者洞察。
当下消费者呈现出需求个性化、碎片化的特点,他们在消费商品或服务时更关注内容创新、服务体验,因此,如何让商品在满足消费者需求的同时提升动销、降低库存,成为摆在品牌方前的首要问题。我们可以在选品组货、关联分析、个性化推荐上做一些尝试。
门店域智能围绕门店运营、销售、管理等业务环节为不同角色提供数据决策能力,从而提升门店的运营管理效率。以下为几个门店域智能应用的例子。
渠道域智能是面向渠道经销商客户的洞察决策。通过数据赋能,为经销商改善生意,从而提升品牌的影响力,同时提升品牌商对经销商的风控识别及合作能力,实现双赢。
物流供应链域智能主要从成本和效率两大目标出发,优化供应链各环节的响应效率,保障终端渠道的现货供应,降低缺货率。同时,将供应量各环节库存控制在适量水平,进而加快资金周转。
服务域智能主要围绕客户服务中的问答、质检、舆论和预测等业务场景,通过大数据、AI、IoT等先进技术,转变服务方式,实现客户服务的降本增效。
方式,实现客户服务的降本增效。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。