当前位置:   article > 正文

数据中台建设方案-基于大数据平台

数据中台建设方案

数据中台建设方案

-基于大数据平台-

1 数据中台建设方案

1.1 总体建设方案

通过对客户大数据应用平台服务需求的理解,根据建设目标、设计原则的多方面考虑,建议采用星环科技Transwarp Data Hub(TDH)大数据基础平台的架构方案,基于Transwarp Operating System(简称TOS)云平台方式部署构建。

通过建立大数据集成平台、大数据计算平台、大数据开发平台及大数据运维平台来满足客户大数据应用平台服务建设的要求。

1.1.1 大数据平台-TDH

星环大数据平台Transwarp Data Hub(简称TDH)基于开源Spark技术,从查询引擎、计算框架、存储引擎和资源调度等方面做了性能的优化,相较于同类产品,提供更好的性能。改进的分布式计算引擎Inceptor,解决了开源Spark的稳定性问题,并且已经在众多成功案例中经历了的考验。同时Ipcetor大幅提高Spark计算性能,是开源的2-10倍。TDH Inceptor极大提高了Spark功能和性能的稳定性,可以7*24小时在企业的生产环境运行,并能在TB级规模数据上高效进行各种稳定的统计分析。

星环大数据平台TDH采用基于Hadoop的数据平台架构,海量数据查询分析服务集群既可以处理结构化的数据,也可以处理非结构化、半结构化的数据,满足配置、日志、网页、音视频、社交网络等多源异构数据的加载和存储,提供数据查询、全文检索、数据离线批处理分析、交互式分析、图分析、数据挖掘、机器学习等多种数据处理模式。同时,基于平台提供的实时流处理集群,可以满足实时数据研判分析服务的需求。整个平台提供完整的多租户功能,对于计算资源与存储资源以及数据访问资源进行统一控制管理,对于计算资源进行高效的调度管理与使用控制;对于存储资源进行配额管理;对于数据访问权限,进行严格的权限管理。在安装、配置、监控、告警方面,通过统一的Transwarp Manager进行运维管理。

星环大数据平台TDH应用范围覆盖各种规模和不同数据量的企业,通过内存计算、高效索引、执行优化和高度容错的技术,使得一个平台能够处理10GB到100PB的数据,并且在每个数量级上,都能比现有技术提供更快的性能;企业客户不再需要混合架构,TDH可以伴随企业客户的数据增长,动态不停机扩容,避免MPP或混合架构数据迁移的棘手问题。

1.1.2 云操作系统-TOS

星环云操作系统Transwarp Operating System(简称TOS)是为大数据应用量身订做的云操作系统,基于Docker和Kubernetes开发。TOS支持一键部署TDH,基于优先级的抢占式资源调度和细粒度资源分配,让大数据应用轻松拥抱云服务。

未来企业对于构建统一的企业大数据平台(Data Hub)来驱动各种业务具有强烈需求,统一的企业大数据平台需要提供以下功能:

资源弹性共享—提高资源利用率

灵活部署:支持灵活部署大数据应用和其他常规应用

资源调度:具备自动扩容和自动修复功能

服务发现:具备集中式的仓库

隔离性—保障服务质量和安全性

数据隔离:包括数据源、访问模式等

计算隔离:隔离CPU、内存、网络、磁盘IO等

TOS满足了以上企业大数据平台的需要,支持对TDH的一键式部署、扩容、缩容,同时也允许其他服务和大数据服务共享集群,从而提高资源的使用率。TOS创新的抢占式资源调度模型能在保障实时业务的同时,提高集群空闲时的资源占用,让批量作业和实时业务在互不干扰的情况下分时共享计算资源。

另外,在TOS上运行的TDH还引入微服务的架构,显著地降低了用户部署环境对TDH稳定性的影响,提高了部署的可用性,并且能让用户在不停机的前提下,享受到将来更新版本的升级以及修复。

TOS由以下几个部分组成:

容器层

容器层主要包含一系列的容器—docker container。Docker是一个开源的引擎,可以轻松的为任何应用创建一个轻量级的、可移植的、自给自足的容器。开发者在测试机上编译测试通过的容器可以批量地在生产环境中部署。

Docker容器通过Docker镜像来创建,容器与镜像的关系类似于面向对象编程中的对象与类。每个容器分配了一定的计算及存储资源,可以运行各自的应用程序。通过将应用服务装载在Docker容器中,能够实现应用环境和底层环境的解耦合,容器间相互隔离互不影响。

调度模块

基于Kurbernetes开发,包含多种调度模块,以及相应的调度策略。支持对CPU、内存的调度,内嵌了FIFO调度、公平调度等常规的调度策略。额外的,基于Docker容器能够快速启动的特点,TOS还包含了抢占式的优先级调度策略,通过设计不同的优先级,优先级高的容器能够抢占优先级低容器的资源启动。

系统服务层

系统服务层包含了容器正常运行所需的系统服务,如服务etcd、name service等,该层用于支持平台的容器化。

集中式服务仓库

类似于Maven的集中仓库,TOS也自带了一个集中式的应用服务仓库。用户需要启动一个已存在于仓库中的应用时,只需要将该应用的Docker image拉下来启动即可。

仓库预置了常用的应用服务,如完整Docker化的Transwarp Data Hub各个组件和Tomcat、MySQL等常用服务。如果用户想要使用其他应用服务,也可以通过TOS提供的接口,在测试环境将应用服务制作为DockerImage,上传至TOSmarket,即可在生产环境下载并使用。

基于分布式容器集群管理系统(TOS)构建的服务器虚拟化资源池,可为大数据平台系统的各类应用、分布式计算和存储服务组件提供多租户隔离的容器资源调配管理、应用打包部署及SLA管理、作业调度管理以及统一运维监控管理。

该系统具备以下优势:

便捷部署

基于TOS,用户可以通过Web UI、REST API或者命令行一键瞬间安装和部署TDH集群,能自动根据服务的依赖性安装所需的其他服务组件。在虚拟技术之前,部署硬件资源满足新的应用需求需要几天时间,通过虚拟化技术把这个时间降到了分钟级别,而目前基于Docker的TOS云平台把时间降到了秒级别。Docker作为装载进程的容器,不必重新启动操作系统,几秒内能关闭,可以在数据中心创建或销毁,没有额外消耗。典型的数据中心利用率是30%,通过更积极的资源分配,以低成本方式对新的实例实现更合理的资源分配,从而提高数据中心的利用效率。

完整的资源隔离

TOS通过优化Kubernetes资源管理框架实现了基于Docker容器对CPU、内存、硬盘和网络更好的隔离。TOS中Docker容器的隔离目前是由Linux内核提供的六项隔离,包括主机名与域名的隔离,信号量、消息队列和共享内存的隔离,进程编号的隔离,网络设备、网络栈、端口的隔离,挂载点(文件系统)的隔离,用户和用户组的隔离。这些隔离保证了不同容器的运行环境是基本不受影响的,比如挂载点的隔离,就保证了一个容器中的进程不能随意访问另外一个容器中的文件。

TOS平台相比于传统的Apache Yarn管理框架和开源Kubernetes的资源管理框架而言,在资源粒度方面可以管控磁盘和网络,而传统资源调度框架只能管理到CPU和内存;在隔离性方面,容器技术有天然的优势;在依赖性和通用性方面,不依赖于Hadoop组件以及技术,这意味着可以实现所有上层应用的云化开发、测试、升级以及管理调度。

资源粒度

隔离程度

依赖性

通用性

YARN

CPU/MEM

进程级别、不精确

依赖某个HDFS

支持少量计算引擎

Kubernetes

CPU/MEM

Container

不依赖Hadoop

支持通用Linux负载

TOS

CPU/MEM,DISK,NETWORK

Container+Quota+VLAN

不依赖Hadoop

支持大数据及通用应用

灵活资源调度

TOS支持对TDH组件自动扩容或者缩容,同时也允许其他应用服务和大数据服务共享集群,从而提高资源的使用率。TOS创新的支持抢占式资源调度模型,能在保障实时业务的同时,提高集群空闲时的资源占用,让批量作业和实时业务在互不干扰的情况下分时共享计算资源。通过支持动态扩容和收缩集群,从何实现了资源的动态分配与调度,整个过程热插拔业务、服务无需重启。

自动修复

TOS的Replicator模块负责检测集群规模,当集群中服务发生问题时可以另起一个服务实例实现集群的自我修复功能。举例而言,某个HyperbaseRegionServer由于硬件原因服务停止,TOS平台能够实时感知,并在管理的资源范围内另起一个Region Server的Docker容器接替因故停止的容器,动态的保证了服务集群的整体稳定性。

应用隔离

在TOS上运行的TDH以及应用服务还引入微服务的架构,显著降低用户部署环境对TDH以及应用服务稳定性的影响,提高了部署的可用性,并且能让用户在一定程度上不停止业务以及服务的前提下,进行快捷的TDH以及应用服务更新版本滚动升级。

1.1.3 大数据平台产品优势

1..1.3.1完整的SQL支持

星环大数据平台支持完整的SQL 99标准和SQL 2003核心扩展,可以运行TPC-DS标准测试集的全部99个测试项;

唯一支持存储过程的SQL on Hadoop引擎;兼容98%以上的Oracle PL/SQL 与80%以上的DB2 SQL PL语法 支持存储过程、函数、控制流、游标、异常处理等各类语法。

唯一支持ACID分布式事务的大数据SQL引擎;定位数据仓库和数据集市市场,可用于补充或替代Oracle、DB2等分析用数据仓库。

TDH提供ANSI SQL2003语法支持以及PL/SQL过程语言扩展,并且可以自动识别HiveQL、SQL2003和PL/SQL语法,在保持跟Hive兼容的同时提供更强大的SQL支持。支持标准的SQL形式访问数据。TDH更完整的SQL支持使得用户能将原有数据分析应用方便地迁移到Transwarp大数据平台,同时又能处理更大的数据量。

为了降低开发流应用程序的难度,TDH还支持Stream SQL标准,其中包含流扩展后的SQL 99。因此,开发者可以在TDH上直接使用SQL而不是通过各种API来编写流计算程序,也不需要考虑任何打包或部署工作。为了更好的提供全文搜索服务,TDH中的Search也支持SQL的检索扩展语法(兼容Oracle标准)。由于支持标准的JDBC 4.0和ODBC 3.5,TDH可以兼容主流的数据库软件和中间件。

TDH

Apache Hive

Apache Spark

SQL 99

SQL 99&2003

部分

Oracle PL/SQL

部分

DB2 SQL PL

Database方言

DB-Link扩展

StreamSQL

Search扩展

1.1.3.2完整的事务支持

ACID对于大数据的数据处理和数据清洗过程至关重要。如果没有ACID,数据的插入修改过程将存在各种潜在问题,终端用户需要亲自探究事务操作的失败原因并找出避免和解决问题的方法,这使用户应用的过程变得复杂,甚至根本不可行。更糟糕的是,如果没有ACID,当两个应用程序向同一个数据块中写入数据时,会很容易出错。

TDH是第一个提供完整ACID支持的Hadoop商业化产品。Transwarp Inceptor实现了串行化的事务隔离,并通过两阶段锁和MVCC协议保证数据的一致性。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/不正经/article/detail/420145
推荐阅读
相关标签
  

闽ICP备14008679号