赞
踩
大数据技术起源于Google在2004年前后发表的几篇论文,而Hadoop最初则是Google大数据技术的开源版本。
大数据具有容量大、种类多、速度快、含有价值等特点,包括结构化,半结构化,和结构化数据。
第一章第二章:大数据的发展史,大数据的概念,特征与价值,大数据的技术架构,Hadoop生态圈,Hadoop集群安装部署等知识。
第三章到第五章:Hadoop的3个组件,HDFS,MapReduce和YARN,工作机制及其MapReduce编程
第六章:ZooKeeper的核心机制,应用场景和客户端操作;
第七章:Hive数据仓库的数据类型、文件格式、内置函数与DDL/DML操作
第八章:Flume的安装部署与数据采集
第九章:Akaban的安装部署与使用,读者需了解其任务调度功能
第十章:Sqoop的导入/导出
第十一章:HBase的体系架构、数据模型、运行机制和实战编程,Java API操作
第十二章:Kafka架构机制与实战编程,
第十三章:Spark的体系架构,Spark RDD,Spark SQL,Spark Streaming
第十四章:大数据平台的几个监控工具,JMX
第十五章和第十六章:大数据离线计算和实时计算的流程及其实战
1、萌芽阶段(20世纪90年代至21世纪初)
大数据萌芽时期以谷歌论文的发表和Hadoop项目的成立为标志,前者提供了理论支持,后者提供了开源的解决方案
2、发展时期(20世纪初至2021年)
3、兴盛时期(2011年至今)
第一层次,描述性分析应用
呈现事物的发展历程
第二层次,预测性分析应用
分析事物的关联关系,进行预测
第三层次,指导性分析应用
分析不同决策将导致的结果,并对决策进行指导和优化。
应用案例
零售行业
金融行业
医疗行业
教育行业
(1)结合智能计算的大数据成为热点
(2)跨学科,跨领域的数据融合与应用将成为今后大数据应用发展的重点方向
(3)大数据安全与隐私
(3)各种可视化技术和工具提升大数据应用价值
马丁·希尔伯特的总结:
今天我们常说的大数据其实是在2000年后,因为信息交换,信息存储,信息处理这三个方面大幅增长而产生的数据。
(1)数据量大
(2)增长、处理速度快
(3)种类和来源多
(4)价值密度低
(5)数据的准确性
(1)数据辅助决策
(2)数据驱动业务
(3)数据对外变现
(1)交换数据
(2)移动通信数据
(3)人为数据
(4)机器和传感器数据
(5)互联网上的开放数据
大数据采集技术,实现对数据的ETL操作
ETL是英文 Extract-Transform-Load的缩写,数据从数据来源经过抽取、转换、加载到目的端。
用户从数据源到数据仓库中去,最后对数据仓库中的数据进行数据分析和处理。
数据采集位于数据分析生命周期的重要一环,通过传感器数据、社交网络数据、移动互联网数据等方式获得各种类型的结构化、半结构化以及非结构化的海量数据。
网络爬虫
开源日志收集系统
数据库
数据存储层:进行数据存储。
数据处理层:批量处理(离线处理)和实时处理(在线处理)
数据建模层:
数据应用层:大数据应用的目标
利用大数据的技术栈(Hadoop生态圈的各种技术),在计算开始前准备好所有输入数据,该输入数据不会产生变化,且在解决一个问题后就要立即得到计算结果的计算模式。
离线计算也可以理解为批处理计算,与其相对应的是在线计算或者实时计算。
Hadppo生态圈的各种技术。
(1)分布式存储
(2)分布式计算
(3)检索和存储的组合
大数据实时计算指的是数据实时产生,产生后就立即处理,这种计算方式倾向于把数据看做流来处理。
数据连续输入,不停计算
低延时
计算结果一般存储在内存数据库中
查询结果一般是截止某个时刻的即时汇总数据。
数据源是实时的,不间断的要求对用户的响应也是实时的
数据量大且无法或没有必要提前计算,但要求对用户的响应时间是实时的。
(1)存储,即数据来源
离线计算:一般存储在HDFS中,而且数据量大
实时计算:一般是消息队列,如Kafka,需要实时增加
(2)处理过程中使用的框架
离线计算:MapReduce或Hive
实时计算:Spark(DStream)或者Storm,Flink等其他实时计算框架
(3) 处理速度,延迟差别
离线计算:速度慢,延迟高
实时计算:速度快,延迟低
(4)进程
离线计算:启动进程,处理完成后销毁进程
实时计算:7*24
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。