当前位置:   article > 正文

大数据概论:未来,已来!_大数据概论纽约airbnb数据挖掘数据挖掘论文

大数据概论纽约airbnb数据挖掘数据挖掘论文

序言

几十亿年前,地球上诞生了第一个生命体,也就是很多年后一个叫做“人类”的种族口中所谓的单细胞生物。岁月流转,斗转星移,宇宙中这个蔚蓝色的星球开始了它的繁荣发展期,生命开始创造一个又一个奇迹。1交融、碰撞、变异,多细胞生物乃至后来的神经元细胞的出现,为生命的演进创造了前提。鱼类、鸟类、昆虫、哺乳动物迅速占领着这个星球的每一寸肌肤,直到人类的出现,他们凭借远超其他种族的智慧建立了文明和秩序,形成了社会、经济、政治等体系,而这也促使科学能够普及到每一个个体。人类对于未知总是充满好奇,强大的学习能力和精英群体的推动加速了知识体系的形成。而当这种进步与落后的矛盾达到极限时,人们总能采取一种有效的手段“工业革命”解决问题,重新建立秩序和社会关系以求稳定的发展。
当计算机问世,当互联网传入国内,当黄页、淘宝、QQ、百度以迅雷不及掩耳之势充斥在我们生活的方方面面,当国家提出“数字中国”愿景着眼互联网+布局,当大数据、云计算、人工智能、5G技术,新时代的我们总会感觉到一丝危机,当然,“危”和“机”总是并蒂莲,如何抓住机遇才是我们需要做的。

未来,已来!

声明:我第一次使用CSDN发布博客,对Markdown编辑器工具使用尚不熟悉,不过难以抑制分享自己在大数据求知道路上所学所得的想法,姑且略发表拙见,这里将大数据基础部分的知识作以下梳理,对于自己而言也是一个复习的过程,当然也希望对感兴趣的同学有所帮助。笔者也刚接触这个领域不久,后文中若有错误或者笔者不得其解之处,敬请见谅,当然,如果同学们有需要与我交流技术上的问题,也十分欢迎。(暂时不留QQ之类的联系方式了)

什么是大数据

大数据(BIG DATA),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
1MB = 1024KB、1GB = 1024MB、1TB = 1024GB、1PB = 1024TB

大数据的特征

容量(Volume):数据的大小决定所考虑的数据的价值和潜在的信息;
种类(Variety):数据类型的多样性;
速度(Velocity):指获得数据的速度;
可变性(Variability):妨碍了处理和有效地管理数据的过程。
真实性(Veracity):数据的质量
复杂性(Complexity):数据量巨大,来源多渠道
价值(value):合理运用大数据,以低成本创造高价值

学习的路线概述

JAVA =====> 面向对象编程语言
Linux =====> 类Unix操作系统
Hadoop生态圈
HDFS =====> 解决存储问题
MapReduce =====> 解决计算问题
Yarn =====> 资源协调者
Zookeeper =====> 分布式应用程序协调服务
Flume =====> 日志收集系统
Hive =====> 基于Hadoop的数仓工具
HBase =====> 分布式、面向列的开源数据库
Sqoop =====> 数据传递工具
Scala =====> 多范式编程语言、面向对象和函数式编程的特性
Spark =====> 目前企业常用的批处理离线/实时计算引擎
Flink =====> 目前最火的流处理框架、既支持流处理、也支持批处理
Elasticsearch =====> 大数据分布式弹性搜索引擎

就业大数据岗位

大数据开发工程师
大数据清洗开发工程师
大数据仓库开发工程师
大数据运维开发工程师
大数据平台开发工程师

起源

名字起源

该项目的创建者,Doug Cutting解释Hadoop的得名 :“这个名字是我孩子给一个棕黄色的大象玩具命名的

项目起源

Hadoop由 Apache Software Foundation 公司于 2005 年秋天作为Lucene的子项目Nutch的一部分正式引入。它受到最先由 Google Lab 开发的 Map/Reduce 和 Google File System(GFS) 的启发。
Google是Hadoop的思想之源(Google在大数据方面的三篇论文)
GFS ====> HDFS
Map-Reduce ====> MR
BigTable ====> HBase

三大发行版本

Apache、Cloudera、Hortonworks
Apache版本最原始、最基础:适合零基础 大公司在用(阿里等大厂)
Cloudera Cloudera’s DistributionIncluding Apache Hadoop 简称CDH 中小型公司用、简单方便、自带可视化
Hortonworks文档较好
注:Cloudera 和Hortonworks 在2018年10月,国庆期间宣布合并

实验环境详解

硬性要求:
内存:最低8G+ (建议12G+)
个人电脑最大内存检测:
win + R 输入 cmd
复制代码:wmic memphysical get maxcapacity
所显示的值:MaxCapacity除以1024的平方
MaxCapacity:33554432
33554432 除以 1024 除以 1024 等于 32G
即个人PC的最大支持内存为32G
磁盘:500GB+
笔者电脑配置Win10 64位 8G 512GB,后续的学习基本没有出现过崩溃的情况。另外,我使用上述代码得到的结果与实际不太相符,得到的结果为67108864,计算后为64,不知何故。

工具

Google浏览器——程序员必备:不用‘谷歌浏览器’的程序员不是好程序
Everything(文件搜索工具)十分好用,谁用谁知道!
Notepad++(文本工具)
IDEA(集成开发工具)后续学习用于编写Java和Scala代码,全称IntelliJ IDEA,在业界被公认为最好的java开发工具之一,支持多插件,下载地址:百度下载社区版即可https://www.jetbrains.com/
Vmware work station14的安装配置 (虚拟网络环境)安装步骤是挺麻烦的,如有需要,私聊咯
SQL yog & Navicat(数据库的图形管理软件)
Secure CRT & Xshell(远程连接虚拟机的工具)
Winscp(Winodws和Linux的传输)
Linux虚拟机的搭建 步骤比较多,这里不赘述。


  1. 周明耀《深入理解JVM&G1 GC》 ↩︎

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/人工智能uu/article/detail/911755
推荐阅读
相关标签
  

闽ICP备14008679号