当前位置:   article > 正文

内存计算技术应对大数据挑战_内存计算技术使用与传统方法

内存计算技术使用与传统方法



访SAP张志琦的过程中涉及到以下内容:

数据的“失控”

  前言

  时间快转,又到了岁末年初盘点之时。

  2012年,不仅是末日之年,也是变革之年。

  深刻的变化正在发生,而这将彻底改变人的生活、工作方式,还有企业经营的方式。如果说20世纪,石油直接影响着世累经济的发展速度和发展水平,那么,21世纪,信息将发挥着同样的作用。《经济学人》曾发表观点表示,数据和信息日益成为商业的新能源,是“一种与资本、劳动力并列的新经济元素”。

  每个时代危机的产生和时代的交替都伴随着一些企业的消亡,诞生出企业的新贵,当然也不乏挺过严冬的幸存者。

  时代的新旧更替即将到来。

  数据的“失控”

  2012年,大数据“风华正茂”,成为超越云计算的另一个热点话题。

  首先让我们先来看几组数字:

  2012年,每两天的数据量就达到2ZB,这相当于从人类文明起到2003年的所有数据量。除了人类所产生数据外,机器产生的数据也在逐年递增;

  一定规模的公司有关消费者用户的数据已达到200T,在社交网络流行的背景下,社会化媒体产生的数据如洪水般泛滥;

  当前存在的90%数据来自于过去的两年间,这些数据来自物联网传感器、交易日志、音频、视频和图像、社交媒体等等;

  到2020年,全球数据量将会扩大50倍。存储1PB的数据将需要两万台配备50GB存储硬盘的PC。

  ……

  如何存储这些数据?如何处理?如何分析利用?如果说以上这些,还不足以说明数据量达到开始“失控”的地步,那么另据统计,这些数据只有20%是结构化的数据,而80%以上是非结构化数据,结构化的数据可用已有的关系型数据库处理,非结构化的数据就需要依赖于新的技术。我们经常在媒体上看到的大数据是指大量的非结构化数据。对于企业来说,如果管理得当,就能从大数据中挖掘出有效的信息,大部分企业还没有使用正确的工具和流程来管理这些非结构化数据。如果继续下去,这样的企业会远远落于人后,因为他们无法获取洞察力,不能帮助企业做出明智的决定。

  欢迎来到大数据统治的时代。

  这个时代,我们看到硅谷的新宠:谷歌、Facebook,它们是驾驭Web数据的大师,他们获得了成功。

  

2大数据时代技术一览

  大数据时代技术一览

  大数据催生的新技术已酝酿多年,而在2012年开始逐渐走向热门,走出了“实验室”阶段,逐步开始商业应用:更快速、更低价、新式的硬件设备步入人们的视野;内存内数据的处理、软件工具快速进化;人工智能、BI等领域的软件发展也达到了一个崭新的阶段。

  在上文提到的各种各样类型非结构化数据中,快速获得有价值信息的能力,就是大数据技术。大数据的四个层面包括:第一,数据量巨大,从TB跃升到PB的级别;第二,数据类型众多,前文提到的日志、视频、图片、社交媒体信息等等;第三,价值密度较低,以视频为例,在连续不间断的几天的监控过程中,可能有用的数据仅有一两秒;第四,处理速度快,如果一个查询命令需要等待几个小时,就将面临“出局”。

  而大数据的生态系统,其实就是数据的生存周期。数据从产生、处理,到价值的提取,最后被消费掉,这整个过程构成了大数据的生态系统。在这个生态系统中,迎合大数据处理的发展趋势,市场上涌现出了众多新鲜的技术,下面将简单列举一些典型的技术:

  在缓存方面,memcached是一个高性能的分布式内存对象缓存系统,可以用于在动态系统中减少数据库负载,提升性能。

  在分布式文件处理方面,目前最为流行的技术是Hadoop,它的优势是开源的软件体系、较低的硬件成本、较强的灵活性等,同时能支持海量数据存储和计算任务。

  在数据仓库方面,通过基于Hadoop的数据仓库平台Hive,开发人员可以方便地进行ETL开发。

  在分布式存储方面, HBase是一个高可靠性、高性能、面向列的分布式存储系统,利用HBase技术可在PC服务器上搭建大规模结构化的存储集群。

  在数据存储方面的另一大热点NoSQL,当前不但诞生了很多NoSQL的数据库产品,还围绕着NoSQL产生了很多新技术、新模式。

  此外还有数据检索的代表TopSy,数据可视化平台代表Roambi等, 本文就不再一一列举。下文将仅对数据分析方面的创新技术做阐述。

  

3内存计算改变“游戏规则”?

  内存计算改变“游戏规则”?

  企业竞争环境中,能够提供实时的信息反馈很重要,这对传统的数据挖掘技术提出了新的挑战。

  过去做数据挖掘,受数据挖掘工具性能方面的限制,一般先对数据做预处理,之后才能做数据展示。如果预处理的数据是按照销售的产品种类去汇总,未来显示的信息也就只能按照这种方式展示。如要选择按照其他汇总,则要重新花时间做预处理。换而言之,数据挖掘需要很多时间去做数据准备,把预处理的结果存储起来,用空间换时间,才能有更多的展示。

  传统的数据挖掘先期准备时间过长,无法迅速处理当下瞬息万变的数据,难以应对为解决决策者对信息进行“实时”分析的强需求。这就需要一种新的方法和工具,要求从 “实时”的数据中提取有用的信息。

  于是在两年前,一个名为“内存计算”的名词突然出现在我们的视野中。

  内存计算相比传统的方法的优势是:充分发挥多核的能力,可以对数据并行的处理,并且内存读取的速度成倍数加快,数据按优化的列存储方式存放在内存里面。结论是,内存计算可对大规模海量的数据做实时分析和运算,不需要事先的数据预处理和数据建模。例如,想要以任何维度去分析数据,实时建立模型,实时完成分析处理,上亿条数据可能从几天缩短为几秒钟就处理完。

  历史只有一个,而未来可以有无限多的可能。所以内存计算更大的价值体现在如何在既有数据的基础上做未来分析预测上。例如,根据现在社交网络上的数据,再加上一些假设条件,去做一个预测。内存计算能根据社交网络提供的海量数据,即时看到当前的客户行为模式,进而做出模拟预测。再比如在市场活动中,用户人群的特点,消费倾向等数据一定,如何增加满意度?满意度的增加会带来多少收益?这样的预测性问题,都是内存计算分析擅长的内容。可以说,内存计算是决策者的一个有力工具。

  一些IT解决方案提供商也早已看到了内存计算市场的强大商机。SAP副总裁、中国区生态系统和渠道总经理潘应麟在接受天极网采访时曾表示,“SAP的内存计算产品是可以改变游戏规则的重要武器”。早在2008年,EMC在企业存储系统中率先采用了基于闪存的固态硬盘,EMC将促进闪存技术应用的战略,提高存储系统和应用的性能,EMC还发布了EMC Hadoop版本,进行实时、非结构化的数据处理。。而SAP的内存计算产品HANA也从2010年就已传出风声,2011年SAP宣布内存计算产品SAP HANA软件,开始提供给全球客户使用,SAP正式加入了内存计算的战场。不久后,作为SAP老对手的甲骨文发布了名为Exalytics的内存数据库设备,一向“人有我优”的甲骨文,也在宣示着对于内存计算领域的不甘人后。

  

4HANA的领地

  HANA的领地

  笔者在下面的论述不会围绕“后来者”Exalytics,而是围绕率先步入市场的HANA进行一些粗浅的分析。

  SAP HANA 设备使企业在开展自己业务的同时,通过海量数据实时分析业务运营情况。内存实时采集数据用于即时分析,从而消除了从业务应用程序获取数据到报表分析数据之间的滞后时间。

  它提供了从数据库直接了解到业务运营情况的一个通道。这一内存设备还将 SAP 软件与其战略合作伙伴的硬件结合了起来。

  简单来说,HANA 是一款列式的内存数据库。这意味着你既可在 HANA 中执行需在行式数据库中执行的常规事务,又可以执行列式数据库所擅长的分析功能。这个“又”字非常关键。一直以来,它只是“或”。当你输入数据时,你需要一款数据库。而当你执行分析(输出数据)时,就需要另一款对数据进行预处理的数据库。

  但是,您不可二者兼得。

  有了HANA之后,两者就不冲突了。它作为一款内存数据库,运行速度有很大提升。另一个原因是,它可以分析输入和输出数据的意图。而且在何种情况下,不会以牺牲性能作为代价。不用在功能和性能之间做艰难的选择。下面一组数字说明HANA优势:

  每秒运行77万条记录,批量插入1GB的数据,每小时达到2.5TB数据的服务,每小时2.5TB插入到SAP HANA上。

  “SAP HANA不仅仅是一种革命性的产品,它是我们真正创新的未来发展平台。” SAP执行董事会成员史维学博士在接受采访时表示。据了解,SAP HANA目前已经有400多名客户,是营收增长最快的产品,接近3亿多欧元的收入。

天极网记者采访SAP中国解决方案和架构部总经理张志琦

  我们一起来看看HANA的三个重要功能。第一,内存计算。第二,一定速度基础上的事务功能和分析功能。第三,结合业务功能。

  为了帮助理解HANA的设计理念和独特之处,笔者举一个例子。如果过去装修一个房子,需要到现场去测量,然后回去准备所需的材料打造成家具。HANA的理念是无需再移动数据。也就是说,可以就地取材,就在数据所在位置开始测量、开始建造。这样的优势是更灵活、反应更快。

  说到这里,在文章第三部分说它为什么是改变“游戏规则”的技术就不难理解了。

  结语

  除了以上论述的内存计算的快速、灵活等优势,内存数据库没有磁盘管理的开支,可以预见,内存作为磁盘的替代品变得越来越具吸引力。

  2012年,我们看到了一些让人眼前一亮的使用数据可视化、数据挖掘、地理信息分析、移动分析、预测分析等案例,内存技术让企业实现最强竞争力、焕发新活力的案例也初露端倪。

  创新、减少IT的妥协、合适的人在合适的时间得到想要的信息,基于信息分析出结果,这一切成为了可能。

附加信息:



声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/繁依Fanyi0/article/detail/401772
推荐阅读
相关标签
  

闽ICP备14008679号