当前位置:   article > 正文

Google三篇论文感想_google发表了3篇论文中海量计算

google发表了3篇论文中海量计算
    进入21世纪以来,随着上网的人越来越多,网络中产生的数据也越来越多。人们面临着两个关键问题: 1、海量数据如何存储?2、海量数据如何计算?而谷歌公司在2003年至2006年发布的三篇论文则为解决两个问题提供了思路,从此引爆了大数据时代。
    GFS文件系统是一个可扩展的分布式文件系统,用于大型的、分布式的、对大量数据进行访问的应用。GFS由一个master和大量的chunkserver构成。Google设置一个master来保存目录和索引信息,这是为了简化系统果,提高性能来考虑的,但是这就会造成主成为单点故障或者瓶颈。为了消除主的单点故Google把每个chunk设置的很大,这样,由于代码访问数据的本地性,application端和master的交互会减少,而主要数据流量都是Application和chunkserver之间的访问。GFS不仅满足了人们对内存的需求,而且该系统还将文件管理得有序不乱,该系统在现在的电脑中应用范围泛,它也有许多的优点。其中GFS将整个系统的节点分为三类角色:客户端、主服务器和数据块服务器。它的特点也十分具有特色,如1.GFS实现了数据流和控制流的分离。Client和Master之间只有控制流,没有数据流,极大地降低了Master的负载。Client和Chunk Server之间直接传输数据流,同时由于文件被分为多个Chunk进行分布式存储,Client可以同时访问多个Chunk Server,从而使整个系统的IO高度并行,整体性能得到提高。2.采用中心服务器模式:(1)可以方便的操作Chunk Server(2)Master可以掌握系统内所有Chunk Server的情况,方便进行负载均衡(3)不存在元数据的一致性问题3.无论是客户端还是chunk服务器都不需要缓存文件数据:(1)文件操作大部分是流式读写,不存在大量重复的读写(2)Chunk Server上的数据存储在本地文件系统上(Linux File System),若真的出现频繁存取,那么本地文件系统的cache也可以支持(3)若建立系统cache,那么cache中的数据与Chunk Server中的数据的一致性很难保证。
    MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算。顾名思义把Map和Reduce分开,它实现的主要思想也是依赖Map(映射)和Reduce(归约)。Map函数是一个处理key/value键值对的数据集合的过程,Reduce函数则是一个合并的过程。BigTable则是采用NoSQL数据库将数据存在一张大表中,通过牺牲存储的空间来换取性能。Google的后面两篇论文——MapReduce 和 BigTable都是以GFS为基础。三大基础核心技术构建出了完整的分布式运算架构。作为一名大二的学生,想要完全理解谷歌的三篇论文还需要长期的知识累积,现在最重要的是通过这些论文学习大数据的思想,开拓眼界,打好这方面的基础。
  • 1
  • 2
  • 3
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/知新_RL/article/detail/204491
推荐阅读
相关标签
  

闽ICP备14008679号