当前位置:   article > 正文

自我总结ing_spark学习心得

spark学习心得

学习Spark的心得体会

        自从大二学习大数据以来,我知道了什么是大数据,大数据是一种现象,并非是一种技术,大数据的体量要特别大,类别要特别多.大数据是海量数据+复杂数据类型。

        大数据解决的问题: 1.快速的数据流转(流处理,实时处理,批处理),2.多样的数据类型(结构化,半结构化,非结构化),3.海量的数据规模(TB,PB,EB)。

        大数据技术定义: 是指伴随着大数据的采集、输、存储、分析和应用的相关技术是一系列使用非传统的工具来对大量的结构化、半结构化和非结构化数据进行处理,从而获得分析和预测结果的一系列数据处理和分析技术。

        大数据技术的应用有以下几个层面,数据采集,数据存储和管理,数据处理与分析,数据隐私和安全,大数据计算模式:批处理计算,流计算,图计算,查询分析计算.

        我们还学习了如何搭建Hadoop平台(核心能力如下) HDFS、MapReduce、hive数据仓库等

        通过本学期的学习,我知道了什么是Spark,Apache Spark 是一种用于大数据工作负载的分布式开源处理系统。它使用内存中缓存和优化的查询执行方式,可针对任何规模的数据进行快速分析查询。它提供使用 Java、Scala、Python 和 R 语言的开发 API,支持跨多个工作负载重用代码—批处理、交互式查询、实时分析、机器学习和图形处理等。您会发现各行业的众多组织都使用它,其中包括 FINRA、Yelp、Zillow、DataXu、Urban Institute 和 CrowdStrike。

        Hadoop 是一种开源框架,它将 Hadoop 分布式文件系统 (HDFS) 用于存储,将 YARN 作为管理由不同应用程序所使用的计算资源的方式,并且实现 MapReduce 编程模型来充当执行引擎。在一般 Hadoop 实现中,还会部署不同的执行引擎,如 Spark、Tez 和 Presto。

        Spark 是一种专门用于交互式查询、机器学习和实时工作负载的开源框架。它没有自己的存储系统,但会在其他存储系统,如 HDFS,或其他热门存储,如 Amazon RedshiftAmazon S3、Couchbase、Cassandra 等之上运行分析。Hadoop 上的 Spark 会利用 YARN 来分享常见的集群和数据集作为其他 Hadoop 引擎,确保服务和响应的一致性水平。

         在实际的操作中,还是会遇到很多问题,语法的错误,一行里参杂着多行代码,在编程中逻辑不够严谨,逻辑错误代码的不熟悉,英语也要多学习,单词的词汇量也不大,在学习Spark语言的时候也是有狠多的疑惑,但是,没能提起勇气去问老师,自己下来花了比较长的时间才理解,真的是有些许愚蠢,也有很多没有掌握的地方,感觉自己学了,又感觉没有学,总的来说,觉得自己很差劲,成为了自己讨厌的人,又总是在为自己的失找借口,学习是一方面,成长又是一方面,人们总是喜欢被人夸赞自己,却不知道这是一把刺向自己的弱点的剑
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/木道寻08/article/detail/819910

推荐阅读
相关标签