赞
踩
python大数据基础知识点
***概述
起源:Google 3篇论文 GFS ,MapReduce ,BigTable
Doug Cutting 写 Hadoop
HDFS - GFS,
MapReduce -- MapReduce,
HBase--- BigTable
hadoop主要分类:
1. apache组织的 开源版 互联网
2. cloudera CDH
雇佣 Doug Cutting 4000美金
3,Hortonworks 最初apache组织 hadoop的开发人员 创立12000美元 (10个)
一,大数据基础:
1,4v特点:大量的;多样性(结构化-数据库,半结构化json,非结构化-音视频)
快速的-处理数据快;价值-在海量没有价值的低价值的数据中获取有价值的
2,数据怎么存?
HDFS,hadoop分布式文件存储系统hadoop distributed file system
主从式架构:nameNode,dataNode
nameNode:维护目录结构;记录文件相关信息-权限大小所属组;DataNode与文件块对应关系 副本集。
DataNode:以块的形式128M存储数据;存储副本集保证数据的安全;校验和,检验文件是否损坏。
3,怎么运算,处理数据?
移动代码,以MapReduce方式移动
yarn集群机制来监控Map和Reduce处理数据,并调度计算机cpu内存网络等资源
二,搭建hadoop集群单节点:(伪分布式集群)
1,设置网络、主机名和主机映射,关闭防火墙和selinux
2,安装JDK
3,上传并解压hadoop安装版:一般放置在/etc/opt/install/hadoop
tar -zxvf hadoopxxx.tar.gz -C /opt/install
4,配置文件:hadoop环境jdk,hadoop四大模块配置
hadoop-env.sh :export JAVA_HOME =/usr/java/jdk1.8xxx
hadoop_home/etc/hadoop/core-site.xml
hdfs-site.xml
yarn-site.xml
mapred-site.xml
5,启动单集群单节点:
先初始化hadoop_home:bin/hdfs namenode -format
启动nameNone,dataNode,yarn-resourcemanager-nodemanager
jps查看进程
通过网络访问:
HDFS http://hadoop.jun.com:50070
yarn http://hadoop.jun.com:8088
三,HDFS系统的访问和操作:
主从式架构,namenode对外client提供访问;
访问和操作:存储、读取数据、删除数据、创建目录;
客户端通过shell命令行和python代码来访问HDFS.
1,常用shell命令:在hadoop_home下:
bin/hdfs dfs -ls /
bin/hdfs dfs -mkdir -p /xiaoming/daming
bin/hdfs dfs -put 本地目录 /jun远程目录
bin/hdfs dfs -text/-cat /jun 查看文本文件
bin/hdfs dfs -get hdfs目录 本地目录:下载
bin/hdfs dfs -rm -r /jun/text :删除
bin/hdfs dfs -cp 原始位置 目标位置 复制
bin/hdfs dfs -mv 原始位置 目标位置 移动
2,垃圾箱保存时间:
core-site.xml:
<name>fs.trash.interval
<value>10 0-不保存
3,HDFS权限问题:客户端要上传文件需要
hdfs-site.xml:
<name>dfs.permissions.enabled
<value>false
4,python访问:
pip install hdfs
from hdfs import Client
client = Client("http://192.xxx:50070")
files = client.list('/')
upload('/',‘text’); download('/jun','ce')
delete('/jun',True);makedirs('jun');
rename('')改名
5,ssh免密登录:
生成公私秘钥:ssh-keygen -t rsa
(生成在~/.ssh目录下id_rsa是私,id_rsa.pub公)
发送到远端主机:ssh-copy-id root@ip
(会添加到远端主机的authorized_keys文件中)
四,HDFS集群搭建:
1,设置网络、主机名和主机映射,关闭防火墙和selinux
2,安装JDK
3,所有节点安装相同版本hadoop安装版:一般放置在/etc/opt/install/hadoop
tar -zxvf hadoopxxx.tar.gz -C /opt/install
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。