赞
踩
数据通过数据集成,进入到数据中台的数据仓库后,可根据需求进行分层分类管理。数据分层分类是指将数据按照不同的主题、类型、来源等进行分类,形成多个具有逻辑关系的数据存储层级。数据分层管理是一种数据管理和组织,它将数据按照不同的层次进行分类和组织,以便更好地管理和使用数据。
数据在原始库中形成数据缓存层,以支持数据加工。同时实现了非结构化数据的关键信息的提取、数据分级分类标签等处理。原始库对外提供了查询、比对、推送、订阅等服务。同时为后续的数据血缘追踪提供溯源支持。
资源库是对原始库数据进行清洗标准化及轻度整合,形成全量数据的持久化层。资源库对外支持数据的分类检索、轨迹碰撞,及明细数据的统计、分析、比对、推送、订阅等服务。
主题库通过归并及建模,形成全息视图,并且通过实体间的关系构成了关系类知识图谱和事理图谱。对外在各中心共享了实体间的关系,并完成实体标签、数据分析、统计、比对等服务。
知识库对外支撑知识类数据的查询以及模型工程、标签工程等服务。
业务库中的业务专题库实现了业务专题类分析,业务知识库汇聚了单一业务系统的知识,业务实体库中构建了业务的相关模型,业务资源库是对业务的相关数据支撑。在此基础上,实现了对外的数据统计、分析、推送及碰撞等服务。
数据资源目录对外支撑各部门对数据资源目录的查询。
数据组织过程通过分层实现,经过标准化、对象化的处理过程,提高数据质量和数据价值
数据源:在接入时,一般直接进入原始库。也可直接分发,进行数据处理,存储到资源库或业务库
原始库:数据经过按需提取、清洗、关联、比对、标识(也就是数据标签)等多种数据处理后,进入资源库
资源库:资源库中可以进行结构化数据提取和清洗去重,净化数据;资源库数据在通过对象化提取、清洗归并,进行关联和标识(对象标识),输出到主题库
主题库:经离线归一化(Idmapping)计算、关联和标识(包括对象标识),计算结果可以输出到主题库或业务库
业务库:业务库内部数据也可以按需进行数据处理,供业务系统使用
知识库:资源库、主题库和业务库均有可能用到知识库,通过对资源库、主题库和业务库进行挖掘,可反哺和进一步完善知识库
原始库是对不同来源的数据,按照数据的原始格式进行存储,支持所有的数据类型。因此,原始库的数据组织方式与接入时的数据组织方式直接对应,不对数据做任何处理。
同时,原始库作为数据资源的一部分,也需要按需提供给各个业务系统使用,因此,在接入的过程中会根据资源目录的编目规则对来源数据进行数据资源编码,最终原始库的数据信息通过数据资源编码在数据资源目录中展示出来,并为数据服务提供所需数据的标识。
正常情况下,所有从各个数据来源接入的数据,都会在原始库做持久化,保留标准化、数据处理之前的数据,包括批量接入及实时接入的内容。根据数据的种类及数据量,源系统数据在原始库中将按一定策略保留,如3个月、1年、长期等。
在某些情况下,如某个数据来源的量特别大,不适合在原始库再存一份,且来源数据本身可以作为数据中心的一部分纳入进来,那么来源数据就可以进行数据标准化处理以及其他数据处理过程,最终保留到相应的资源库或知识库或业务库,来源数据的原始提供库作为数据中心的原始库的一部分,提供原始数据的信息。
原始库的数据中如果存在知识性数据,也可以不经过资源库,直接进到知识库。
如果业务库对原始库的数据有使用需要,也可以直接从原始库取数据到业务库。同时,业务库中产生的新的数据,也会作为内部数据源,通过采集感知体系,接入到原始库中。
鉴于原始库的数据按照原始格式进行存储的特性,以及原始库作为数据汇聚的最初的资源池。
资源库,综合各类数据资源进行提炼加工,形成公共数据集合,对各项业务工作都具有支撑作用,可以脱离任何业务而独立存在,也与每一项业务相关。
资源库的数据由原始库而来。资源库的数据流向主要是主题库,但其中如果有知识性数据,那么也可以直接进入到知识库。业务系统如果对资源库的数据有需求,那么资源库的数据也可以直接进入到业务库,形成业务资源库。
资源库是在原始库上对所有汇聚数据,按照一定的规则进行清洗、标准化,并按业务使用规则或属性规则等进行整合加工与汇总,为整个数据中台提供基础数据资源支撑的数据集合。因此,资源库主要以结构化数据类型为主,非结构化的信息可以以属性的方式存在,也可以使用数据处理的技术,将非结构化的数据做结构化提取之后再汇聚到资源库。
资源库数据整合的几个基本原则:
①以资源库的数据标准为依据,尽可能保留原始库中有价值的信息,并且按照数据标准做标准化处理。有标准的属性全部做标准化处理,有验证校验规则的属性全部都做验证校验。
②同类数据做整合。同类业务来源的同类数据要做数据整合。
③抽象之后的同类数据做整合。不同类业务来源的不同类数据如果能抽象成同类数据,也要做数据整合。
由于资源库是将原始库的数据进行标准化、清洗、关联、比对、标识之后按照行为、轨迹、内容、物品、身份、关系、关联等分类方式重新组织的,因此相比原始库,资源库的数据从各方面来说,都有了较大提升和规范:
①以结构化数据为主,非结构化数据作为结构化数据的补充信息,通过数据建立关系。生物特征信息作为行业特有的非结构化数据,且对于人员具有很好的标识特性,因此,也是资源库的一部分,支撑每一个有需要的业务。
②数据质量大幅提升。资源库是面向全业务的基础数据资源,对数据质量有很高的要求。对于上层应用来说,垃圾数据只会产生垃圾主题、垃圾信息、垃圾知识。因此,从原始库到资源库的提取过程中,会对数据进行标准化、数据校验、清洗等一系列可以提升数据质量的处理动作,因此资源库数据作为轻度融合的高质量的数据资源,为所有应用提供最基本的数据支持。
③数据结构遵循资源库的数据标准。尽管数据来源多样丰富,标准化程度各有不同,但资源库必须遵循数据中台的关于资源库的数据标准进行组织,包括所有相关的数据项、字典、分类等。
④与原始库相比,资源库的数据价值得到提升。资源库的数据经过标准化之后,数据质量显著提升,遵循资源库的数据标准。对应用来说,所有资源库数据都是有效、有价值、可用的数据,应用系统可以基于海量的资源库数据进行开发研究。
资源库通过数据资源目录和全局统一索引,提供全面的数据共享服务。但资源库由原始库通过数据标准化进而整合而成,包含大量明细数据,数据规模仍较大。因此,为了既能达到资源库的全网络总索引、总导航的总体目标,又能够平衡各分中心的资源情况,按照资源 库的数据种类和特点,可以有本地存储和主中心存储两种方式。
主中心存储:这部分资源库的数据在主中心进行整合并存储,特点是数据量相对稳定,属于基础资源。
本地存储:这部分资源库的数据在各中心进行整合并存储,特点是数据量大,持续增长,且不会和其他分中心、其他采集来源的数据进行整合,因此,在本地处理就可以。
主题库一般是根据客户实际的业务需要分析各行业的特性来定制化的相关数据库。
业务库是支撑业务的相关需求,为特定的业务活动提供基础数据、临时数据、分析统计类数据、挖掘类数据等,并记录业务过程中总结及发现的相关知识。
业务库的数据来源可以是按需获取原始库、资源库、主题库和知识库的数据,也可以是外部导入的数据。如果业务库里中产生的知识具备全领域、全地域共享的特点,那么可以通过资源注册的方式共享知识库,实现全领域、全地域共享。业务系统内产生的其他数据,如果有汇聚到数据中心的需求,则通过数据中心的采集汇聚体系,作为一个新的内部资源,将数据注入到平台中。
按照数据组织的方式分,业务库内的数据可以分为业务知识库、业务资源库、业务实体库和业务专题库。
标签数据贯穿在整个数据平台过程之中。如资源库的数据可以打上数据标签和行为标签,一般以属性的形式附在资源库数据之上。而由于主题数据是在资源库之上做了融合的数据,同一个主题实体会拥有很多来自资源库的标签信息,对这些数据标签和行为标签再次通过一定的规则运算或智能运算,可以为主题实体打上更多元、更丰富的标签,所以主题库的标签信息与主题数据分开存储,主题标识与标签信息单独形成标签库的数据。
此外其他专题库也可以产生自己的标签数据。数据来源可以是原始库、资源库、主题库或标签专题库等,按照专题系统自身的需求,设置自身的标签规则或智能标签模型,在现有的数据基础上进行其领域范围内关注的标签数据计算,形成领域范围内专题库标签数据库。
标签库的数据组织结构,主要由两大部分组成:
标识属性:即数据的标识信息,根据标识信息能够追溯到原始数据。若标签打在关系数据上,那么标签属性则是两个关系主体的标识信息。
标签属性:即对数据的标签标识。标签本身有标识属性、规则属性,这部分信息在知识库中。通过标签标识规则标识信息,可以获取到标签的权限、分级、分类、时效性以及可靠度等信息。
知识库是指专业领域或与专业领域相关的特征知识数据和规则方法集合,包括一些全领域共享的用于主体、行为、言论分类的特定知识性数据集合,也包括处理、控制、表达知识数据的规则、方法、过程等集合,如犯罪规律、技法战法、业务处理逻辑等。
知识库的数据来源比较广,现有系统的知识库会通过数据接入流程进入到原始库进而归并到知识库,资源库里的知识性数据也可以进入到知识库,基于主题库形成的知识也是知识库的重要来源,同时业务系统产生的知识性数据则可以通过注册的方式进入到知识库。而知识库的数据也可以被业务系统按需取用。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。