赞
踩
首先,在构建大数据分析平台之前,我们要明确业务需求场景和用户的需求,通过大数据分析平台,获取有价值的信息,需要访问数据,明确基于现场业务需求的大数据平台具有基本功能,确定平台的流程使用大数据处理工具和框架。面对海量的各种来源的数据,如何对这些零散的数据进行有效的分析,得到有价值的信息一直是大数据领域研究的热点问题。
大数据分析处理平台整合目前主流的各有侧重点、各有侧重的大数据处理分析框架和工具,实现对数据的挖掘与分析,大数据分析平台所涉及的组件众多,如何将其有机结合起来,对大量数据进行挖掘是一个复杂的过程。在构建平台之前,明确业务需求以及用户需求,通过大数据分析平台,想要获得有价值的信息,需要访问数据,明确基于场景业务需求的基本功能,确定大数据处理工具和框架。
具体的整体架构可以由以下几个部分组成:
1、业务应用:其实指的是数据采集,你通过什么样的方式收集到数据。互联网收集数据相对简单,数据可以通过网页和应用程序收集。例如,许多银行现在都有自己的App。这便能够更深层次的分析用户行为数据,可以切分出来很多维度,做很细的分析。但对涉及离线的行业来说,数据采集需要借助各种业务系统来完成。
2、数据集成:实际上是指ETL,是指用户从数据源中提取所需数据,最终根据预定义的数据仓库模型将数据加载到数据仓库。而这里的Kettle只是ETL的其中一种。
3、数据存储:指的是建立数据仓库,简单地可分为业务数据层(DW)、指标层、维度层(DWA)。
4、数据共享层:在数据仓库和业务系统之间提供数据共享服务。Web Service和Web API ,表示一种数据之间的连接方式,以及一些其它的连接方式,这些方法可以根据自己的情况决定。
5、数据分析层:分析函数就相对比较容易理解了,就是各种数学函数,比如K均值分析、聚类、RMF模型等等。列存储使磁盘中的每个Page只存储单列值,而不存储整行值。这样压缩算法会更加高效。进一步说,这样能够减少磁盘的I/O、提升缓存利用率,因此,磁盘存储会被更加高效的利用。
分布式计算可以将需要大量计算能力解决的问题分为许多小部分,然后将这些部分同时交给许多计算机,然后将这些计算结果结合起来,以获得最终结果。综合这两种技术,就能够大幅度提高分析环节的效率。Yonghong MPP目前在这两个方面都做的最好。
6、数据显示:结果以何种形式呈现,实际上是数据可视化。在此推荐使用敏捷BI,与传统BI不同,它可以通过简单的拖拉方式生成报告,而且学习成本更低。
7、数据访问:相对简单,这取决于你如何查看这些数据。图中的示例是由于B/S架构,通过浏览器访问最终的可视化结果。
具体案例分析:
Smartbi银行应用产品整体解决方案:
● Smartbi在存储层上构建了数据分析平台,包括完整的数据平台、技术平台和业务平台。实质上就是建立具有数据共享能力的应用中心;
● Smartbi旨在连接数据中台和业务中台,实现应用满足技术中台要求的银行数据分析技术中台产品。它包含了可视化组件、数据分析组件、数据挖掘组件等,展示了数据背后的价值;
● 该产品配置后,连接银行已有数据,根据银行的个性化需求,可以方便地满足对自助分析、报表、数据挖掘、座舱管理等系统的需求。我们也抽象了些应用模板、数据模板。
该方案价值点:
● 管理驾驶舱:响应快速性、工作汇报便捷性;
● 数据准确性、分析即时性、风险预警性和辅助决策性;
● 自助分析:图表快速自助、简化工作流程、业务价值共享;
● 明细查询、节约维护成本、业务自助分析和数据快速排查。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。