赞
踩
Hive Hadoop
Hive 和传统关系型数据库区别
基于内存的分布式计算框架
只负责算 不负责存
spark 在离线计算 功能上 类似于mapreduce的作用
MapReduce的缺点
Spark优势
弹性分布式数据集
spark当中对数据的抽象
所有spark中对数据的操作最终都会转换成RDD的操作
RDD 分布式的 可容错 可以进行并行计算
rdd 的存储可以对比HDFS
RDD是不可变的
创建RDD之前先要有spark context
conf = SparkConf().setAppName(appName).setMaster(master)
sc = SparkContext(conf=conf)
通过内存中的数据创建RDD
创建RDD时可以指定 partition的数量(RDD会分成几份)一个partition会对应一个task,根据CPU的内核数来指定partition (1核对应2~4个partition)
从文件创建RDD 可以是HDFS支持的任何一种存储介质
广播变量
如果多个task会用到同一份数据,默认每个task都会复制一份
用到的数据如果只是查询可以通过广播变量保存,避免数据的反复复制
SparkContext可以创建广播变量
广播变量= sc.broadcast(值)
广播变量。value
mapPartitions
二分法查找
ip_transform 把223.243.0.0 转换成10进制的数字
Master
Worker
Executor
Application
Driver
Client
spark core是 spark生态最核心的部分
spark 生态
spark
MapReduce 和 spark 优劣
RDD
RDD创建
三类算子
spark local模式 standalone
广播变量
HBase shell操作
Happybase 操作hbase
Hbase 需要调整的地方
①删除hadoop 上 /hbase目录
②修改 /root/bigdata/hbase/conf/regionservers
只保留hadoop_master
③修改hbase-site.xml
<configuration> <property> <name>hbase.rootdir</name> <value>hdfs://hadoop-master:9000/hbase</value> </property> <property> <name>hbase.cluster.distributed</name> <value>true</value> </property> <property> <name>hbase.zookeeper.property.clientPort</name> <value>只保留之前的第一个值</value> </property> <property> <name>hbase.zookeeper.property.dataDir</name> <value>保留之前的内容</value> </property> <property> <name>hbase.unsafe.stream.capability.enforce</name> <value>false</value> </property> </configuration>
④start-hbase.sh 启动hbase
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。