赞
踩
我们在上一篇文章中给大家介绍了被很多大公司使用的流式计算系统的内容,这些内容在大数据处理中还是不够的,还需要一些其他的系统,那么需要什么系统呢?就是我们要给大家说的图计算系统与内存计算系统,下面我们给大家讲解一下这两个系统。
首先就是图计算系统,现如今,社交网络、网页链接等包含具有复杂关系的图数据,这些图数据的规模巨大,可包含数十亿顶点和上百亿条边,图数据需要由专门的系统进行存储和计算。而常用的图计算系统有Google公司的Pregel、Pregel的开源版本Giraph、微软的Trinity、Berkeley AMPLab的GraphX以及高速图数据处理系统PowerGraph。
首先我们说一说Pregel。这是一种面向图数据计算的分布式编程框架,采用迭代的计算模型。Google的数据计算任务中,大约80%的任务处理采用MapReduce模式,如网页内容索引;图数据的计算任务约占20%,采用Pregel进行处理。而Giraph是一个迭代的图计算系统,这个成为开源的图计算系统。Giraph是基于Hadoop建立的,Facebook在其脸谱搜索服务中大量使用了Giraph。然后我们说说Trinity,这是微软公司开发的图数据库系统,该系统是基于内存的数据存储与运算系统,源代码不公开。而GraphX是由AMPLab开发的运行在数据并行的Spark平台上的图数据计算系统。最后说说PowerGraph,这是一种高速图处理系统,常用于广告推荐计算和自然语言处理。由此可见,图计算系统的内容还是有很多的。
接着给大家说一说内存计算系统。就目前而言,随着内存价格的不断下降、服务器可配置内存容量的不断增长,使用内存计算完成高速的大数据处理已成为大数据处理的重要发展方向。目前常用的内存计算系统有分布式内存计算系统Spark、全内存式分布式数据库系统 HANA、 Google的可扩展交互式查询系统Dremel。首先说说Dremel,这是Google的交互式数据分析系统,可以在数以千计的服务器组成的集群上发起计算,处理PB级的数据。Dremel是Google MapReduce的补充,大大缩短了数据的处理时间,成功地应用在Google的bigquery中。然后就是HANA,这是SAP公司开发的基于内存技术、面向企业分析性的产品。而Spark是基于内存计算的开源集群计算系统。这些内容组成了内存计算系统。
由此可见,大数据处理系统的内容还是有很多的,这些内容都能够给大数据处理系统带来很大的帮助,能够完善大数据,所以我们如果想要学大数据,需要掌握好这些内容。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。