赞
踩
目录
大数据(big data) 或称为巨量数据,海量数据,大资料。
2.1 所涉及到的数据量规模巨大到无法通过人工或者计算机,在合理的时间内达到,截取,管 理,处并整理成为人类所能解读的形式的信息。
2.2 我们这里学习的大数据,不仅仅指一个数据,它已经成为一个完整的主题,涉及各种工具,技术和架构;
3.1 随着科学技术的不断进步,存储设备制造工艺不断升级,容量大幅增加,速度不断提升,价格却不断下跌;
3.2 cpu处理速度的不断提升也是促使数据量不断增加的重要原因,性能不断提升的cpu,大大提高处理数据的能力;
3.3 摩尔定律: 性能每隔18个月提高一倍,价格下降一半;
大容量(volume) 多样化(variety) 快速化(velocity) 产生的价值(value)
1,成本挑战
2,数据安全风险的挑战
3,大数据技术的挑战
4,数据分析和管理人才紧缺的挑战
5,外部业务需求的数据转换的挑战
6.1 hadoop核心组件: hdfs 负责存储数据
MapReduce 对海量数据进行计算
Yarn 通用的资源调度框架
7.1 虚拟化
7.2 分布式存储
7.3 分布式计算
7.4 多租户
8.1 二维码及RFID(利用射频信号实现无接触信息传递)
8.2 传感器
8.3 近距离通信
8.4 无线网络
8.5 嵌入式技术
简单阐述一下就是:人工智能 = 云计算 + 大数据
是一个能够对大量数据进行分布式处理,可运行在大规模集群上的计算平台。是apache基金会用java语言实现的开源分布式系统集成架构,具有,可靠,高效,可伸缩的特点。
2.1 高可靠性:hadoop具有按位存储和处理数据能力的高可靠性;
2.2 高扩展性:hadoop通过可用的计算机集群分配数据,完成存储和计算任务,这些集群可以方便的扩展到数千计的节点中,具有高扩展性;
2.3 高效性:hadoop能够在节点之间进行动态的移动数据,并保证各个节点的动态平衡,处理速度非常快,具有高效性;
2.4 高容错性:hadoop能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配,具有高容错性;
3.1 hadoop不适用于低延迟数据访问;
3.2 hadoop不能高效存储大量小文件;
3.3 hadoop不支持多用户写入并任意修改文件;
hdfs具有处理超大数据,流式处理,可以运行在廉价商用服务器上等优点;
hdfs中的组件: NameNode---- DataNode
NameNode是hdfs的守护程序,也就是所谓的master(主节点)节点,主要存储文件的元数据信息,记录文件如何分割成数据块的,以及这些数据块被存储到那些节点上,NameNode单点在发生故障时间使集群崩溃;
DataNode 是slave(从)节点DataNode节点负责把数据块读写到本地文件系统,是真正存储文件的节点,一个文件会被切割成一个或多个block块,这些block块会被存储在一系列的DataNode节点中,并且每一个块可能会在多个DateNode上备份;
hdfs基本原理,就是讲大文件切分成同样大小的数据块(128M),进行冗余3份,存储在不同的机器上,同时调控集群的负载均衡;
MapReduce是一个批量分布式计算框架:
map 任务
reduce 负责计算
集群MapReduce计算流程
Yarn是一个资源管理模块,负责整个集群资源的管理和调度;他的特点是扩展性,容错性,多框架资源统一调度;
Yarn的一个基本思想是将资源管理和作业调度/监视的功能分解为独立的守护进程;
其思想是有一个全局的ResourceManager(RM)和每一个应用的ApplicationMaster(AM) 一个应用可以是一个job,也可以是一组job;
ResourceManager + ApplicationManager + NodeManager
ResourceManager 主要负责所有的应用程序的资源分配;
ApplicationMaster 主要负责每个作业的任务调度;
NodeManager 是接受ResourceManager 和ApplicationMaster的命令实现资源的分配执行体;
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。