赞
踩
Hadoop 是一个能够对大量数据进行分布式处理的软件框架。具有可靠、高效、可伸缩的特点。Hadoop 的核心是 HDFS 和 Mapreduce,HDFS 还包括 YARN。
HDFS是hadoop的分布式文件系统,是hadoop体系中数据存储管理的基础。他是一个高度容错的系统,能检测和应对硬件故障。
mapreduce是hadoop的分布式计算框架,它一种计算模型,用于处理大数据量的计算。其中map对应数据集上的独立元素进行指定的操作,生成键-值对形式中间,reduce则对中间结果中相同的键的所有值进行规约,以得到最终结果。
MapReduce是一个分布式运算程序的编程框架,是用户开发“基于Hadoop的数据分析应用”的核心框架。
MapReduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并行运行在一个Hadoop集群上。
Apache Spark和Hadoop MapReduce是两种不同的分布式处理框架,它们在运行速度、易用性、通用性、容错性以及执行模型等方面存在显著差异。
运行速度快:Spark在内存中的运算速度比Hadoop MapReduce快100倍,从硬盘中读取数据时快10倍。
易用性好:Spark支持Scala、Java、Python、R等多种编程语言。
通用性好:Spark提供了多种工具库,如Spark SQL、Spark Streaming、MLib及GraphX,可以在一个应用中无缝使用这些工具库。
支持多种运行方式:Spark可以独立部署、在Yarn上部署或者使用Mesos管理。
容错性高:Spark引入了弹性分布式数据集(RDD),支持数据重建和通过checkpoint实现容错。
执行模型:Spark支持批处理、迭代处理和流处理,而MapReduce仅支持批处理。
编程语言支持:Spark支持Java、Scala、Python、R等多种语言,而MapReduce主要支持Java。
数据处理方式:Spark可以将中间处理结果数据存储到内存中,而MapReduce的计算结果通常保存在磁盘上。
数据处理效率:Spark通过基于内存的计算和DAG执行引擎,提高了迭代运算效率,减少了数据落地,提高了处理效率。
数据源支持:Spark支持从HDFS、HBase、Cassandra及Kafka等多种途径获取数据,而MapReduce主要与HDFS集成。
综上所述,Spark在运行速度、易用性、通用性和容错性方面优于MapReduce,并且在执行模型、编程语言支持、数据处理方式等方面也有所不同。
- `/`,根目录是最顶级的目录了
- Linux只有一个顶级目录:`/`
- 路径描述的层次关系同样适用`/`来表示
- /home/itheima/a.txt,表示根目录下的home文件夹内有itheima文件夹,内有a.txt
功能:列出文件夹信息
语法:`ls [-l -h -a] [参数]`
- 参数:被查看的文件夹,不提供参数,表示查看当前工作目录
- -l,以列表形式查看
- -h,配合-l,以更加人性化的方式显示文件大小
- -a,显示隐藏文件在Linux中以`.`开头的,均是隐藏的。默认不显示出来,需要`-a`选项才可查看到。
功能:展示当前工作目录
语法:`pwd`
功能:切换工作目录
语法:`cd [目标目录]`
参数:目标目录,要切换去的地方,不提供默认切换到`当前登录用户HOME目录`
每一个用户在Linux系统中都有自己的专属工作目录,称之为HOME目录。
- 普通用户的HOME目录,默认在:`/home/用户名`
- root用户的HOME目录,在:`/root`
- 相对路径,非`/`开头的称之为相对路径
相对路径表示以`当前目录`作为起点,去描述路径,如`test/a.txt`,表示当前工作目录内的test文件夹内的a.txt文件。
- 绝对路径,以`/`开头的称之为绝对路径
绝对路径从`根`开始描述路径,如/etc/sysconfig/1.txt。
功能:创建文件夹
语法:`mkdir [-p] 参数`
- 参数:被创建文件夹的路径
- 选项:-p,可选,表示创建前置路径
功能:创建文件
语法:`touch 参数`
- 参数:被创建的文件路径
功能:查看文件内容
语法:`cat 参数`
- 参数:被查看的文件路径
功能:查看文件,可以支持翻页查看
语法:`more 参数`
- 参数:被查看的文件路径
- 在查看过程中:
- `空格`键翻页
- `q`退出查看
功能:复制文件、文件夹
语法:`cp [-r] 参数1 参数2`
- 参数1,被复制的
- 参数2,要复制去的地方
- 选项:-r,可选,复制文件夹使用
功能:移动文件、文件夹
语法:`mv 参数1 参数2`
- 参数1:被移动的
- 参数2:要移动去的地方,参数2如果不存在,则会进行改名
功能:删除文件、文件夹
语法:`rm [-r -f] 参数...参数`
- 参数:支持多个,每一个表示被删除的,空格进行分隔
- 选项:-r,删除文件夹使用
- 选项:-f,强制删除,不会给出确认提示,一般root用户会用到
> rm命令很危险,一定要注意,特别是切换到root用户的时候。
功能:查看命令的程序本体文件路径
语法:`which 参数`
- 参数:被查看的命令
功能:搜索文件
语法1按文件名搜索:`find 路径 -name 参数`
- 路径,搜索的起始路径
- 参数,搜索的关键字,支持通配符*, 比如:`*`test表示搜索任意以test结尾的文件
功能:过滤关键字
语法:`grep [-n] 关键字 文件路径`
- 选项-n,可选,表示在结果中显示匹配的行的行号。
- 参数,关键字,必填,表示过滤的关键字,带有空格或其它特殊符号,建议使用””将关键字包围起来
- 参数,文件路径,必填,表示要过滤内容的文件路径,可作为内容输入端口
> 参数文件路径,可以作为管道符的输入
写法:`|`
功能:将符号左边的结果,作为符号右边的输入
示例:
`cat a.txt | grep itheima`,将cat a.txt的结果,作为grep命令的输入,用来过滤`itheima`关键字
可以支持嵌套:
`cat a.txt | grep itheima | grep itcast`
功能:统计
语法:`wc [-c -m -l -w] 文件路径`
- 选项,-c,统计bytes数量
- 选项,-m,统计字符数量
- 选项,-l,统计行数
- 选项,-w,统计单词数量
- 参数,文件路径,被统计的文件,可作为内容输入端口
> 参数文件路径,可作为管道符的输入
功能:输出内容
语法:`echo 参数`
- 参数:被输出的内容
功能:查看文件尾部内容
语法:`tail [-f] 参数`
- 参数:被查看的文件
- 选项:-f,持续跟踪文件修改
功能:查看文件头部内容
语法:`head [-n] 参数`
- 参数:被查看的文件
- 选项:-n,查看的行数
功能:将符号左边的结果,输出到右边指定的文件中去
- `>`,表示覆盖输出
- `>>`,表示追加输出
命令模式快捷键
底线命令快捷键
- CentOS系统使用:
- yum [install remove search] [-y] 软件名称(需要root权限)
- install 安装
- remove 卸载
- search 搜索
- -y,自动确认
功能:控制系统服务的启动关闭等
语法:`systemctl start | stop | restart | disable | enable | status 服务名`
- start,启动
- stop,停止
- status,查看状态
- disable,关闭开机自启
- enable,开启开机自启
- restart,重启
功能:创建文件、文件夹软链接(快捷方式)
语法:`ln -s 参数1 参数2`
- 参数1:被链接的
- 参数2:要链接去的地方(快捷方式的名称和存放位置)
语法:`date [-d] [+格式化字符串]`
- -d 按照给定的字符串显示日期,一般用于日期计算
- 格式化字符串:通过特定的字符串标记,来控制显示的日期格式
- %Y 年%y 年份后两位数字 (00..99)
- %m 月份 (01..12)
- %d 日 (01..31)
- %H 小时 (00..23)
- %M 分钟 (00..59)
- %S 秒 (00..60)
- %s 自 1970-01-01 00:00:00 UTC 到现在的秒数
功能:同步时间
安装:`yum install -y ntp`
启动管理:`systemctl start | stop | restart | status | disable | enable ntpd`
手动校准时间:`ntpdate -u ntp.aliyun.com`
功能:Linux系统的名称
查看:`hostname`
设置:`hostnamectl set-hostname 主机名`
功能:查看进程信息
语法:`ps -ef`,查看全部进程信息,可以搭配grep做过滤:`ps -ef | grep xxx`
功能:查看端口占用
用法:netstat -anp | grep xxx
功能:测试网络是否联通
语法:ping [-c num] 参数
热备份可以在数据库运行中直接备份,对正在运行的数据库操作没有任何的影响,数据库的读写操作可以正常执行。
冷备份必须在数据库停止的情况下进行备份,数据库的读写操作不能执行。这种备份最为简单,一般只需要复制相关的数据库物理文件即可。
温备份同样是在数据库运行中进行的,但是会对当前数据库的操作有所影响,备份时仅支持读操作,不支持写操作。
结构化数据具有某些预定义的组织属性,并以结构化或表格模式存在,从而更易于分析和排序。此外,由于其预定义的性质,每个字段都是离散的,可以单独访问或与其他字段的数据一起访问。这使得结构化数据极其有价值,使得从数据库中的各个位置快速收集数据成为可能。
非结构化数据包含没有预定义概念定义的信息,并且不容易通过标准数据库或数据模型进行解释或分析。非结构化数据占大数据的大部分,包括日期、数字和事实等信息。这种类型的大数据示例包括视频和音频文件、移动活动、卫星图像和 No-SQL 数据库等。我们在社交媒体上上传的照片以及在短视频平台上观看的视频都会导致越来越多的非结构化数据。
半结构化数据是结构化数据和非结构化数据的混合体。这意味着它继承了结构化数据的一些特征,但仍然包含不具有明确结构且不符合关系数据库或数据模型的形式结构的信息。例如,JSON 和 XML 就是半结构化数据的典型示例。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。