我家小花儿

这个屌丝很懒，什么也没留下！

热门标签

python大数据基础知识点（Hadoop+HDFS+MapReduce+Hive+Hbase）_hadooppython 编程语言灵活运用 hdfs,hive,spark,mapreduce 等

作者：我家小花儿 | 2024-08-18 22:26:40

踩

hadooppython 编程语言灵活运用 hdfs,hive,spark,mapreduce 等大数据技术

python大数据基础知识点

***概述

起源：Google 3篇论文 GFS ,MapReduce ,BigTable

Doug Cutting 写 Hadoop

HDFS - GFS，

MapReduce -- MapReduce，

HBase--- BigTable

hadoop主要分类：

1. apache组织的开源版互联网

2. cloudera CDH

雇佣 Doug Cutting 4000美金

3，Hortonworks 最初apache组织 hadoop的开发人员创立12000美元（10个）

一，大数据基础：

1，4v特点:大量的；多样性（结构化-数据库，半结构化json，非结构化-音视频）

快速的-处理数据快；价值-在海量没有价值的低价值的数据中获取有价值的

2，数据怎么存？

HDFS，hadoop分布式文件存储系统hadoop distributed file system

主从式架构：nameNode,dataNode

nameNode:维护目录结构；记录文件相关信息-权限大小所属组；DataNode与文件块对应关系副本集。

DataNode：以块的形式128M存储数据;存储副本集保证数据的安全；校验和，检验文件是否损坏。

3，怎么运算，处理数据？

移动代码，以MapReduce方式移动

yarn集群机制来监控Map和Reduce处理数据，并调度计算机cpu内存网络等资源

二，搭建hadoop集群单节点：（伪分布式集群）

1，设置网络、主机名和主机映射，关闭防火墙和selinux

2，安装JDK

3，上传并解压hadoop安装版:一般放置在/etc/opt/install/hadoop

tar -zxvf hadoopxxx.tar.gz -C /opt/install

4,配置文件：hadoop环境jdk，hadoop四大模块配置

hadoop-env.sh :export JAVA_HOME =/usr/java/jdk1.8xxx

hadoop_home/etc/hadoop/core-site.xml

hdfs-site.xml

yarn-site.xml

mapred-site.xml

5,启动单集群单节点：

先初始化hadoop_home：bin/hdfs namenode -format

启动nameNone,dataNode,yarn-resourcemanager-nodemanager

jps查看进程

通过网络访问：

HDFS http://hadoop.jun.com:50070

yarn http://hadoop.jun.com:8088

三，HDFS系统的访问和操作：

主从式架构，namenode对外client提供访问；

访问和操作：存储、读取数据、删除数据、创建目录；

客户端通过shell命令行和python代码来访问HDFS.

1,常用shell命令：在hadoop_home下：

bin/hdfs dfs -ls /

bin/hdfs dfs -mkdir -p /xiaoming/daming

bin/hdfs dfs -put 本地目录 /jun远程目录

bin/hdfs dfs -text/-cat /jun 查看文本文件

bin/hdfs dfs -get hdfs目录本地目录：下载

bin/hdfs dfs -rm -r /jun/text :删除

bin/hdfs dfs -cp 原始位置目标位置复制

bin/hdfs dfs -mv 原始位置目标位置移动

2，垃圾箱保存时间：

core-site.xml:

<name>fs.trash.interval

<value>10 0-不保存

3，HDFS权限问题：客户端要上传文件需要

hdfs-site.xml:

<name>dfs.permissions.enabled

<value>false

4,python访问：

pip install hdfs

from hdfs import Client

client = Client("http://192.xxx:50070")

files = client.list('/')

upload('/',‘text’); download('/jun','ce')

delete('/jun',True);makedirs('jun');

rename('')改名

5，ssh免密登录：

生成公私秘钥：ssh-keygen -t rsa

(生成在~/.ssh目录下id_rsa是私，id_rsa.pub公)

发送到远端主机：ssh-copy-id root@ip

(会添加到远端主机的authorized_keys文件中)

四，HDFS集群搭建：

1，设置网络、主机名和主机映射，关闭防火墙和selinux

2，安装JDK

3，所有节点安装相同版本hadoop安装版:一般放置在/etc/opt/install/hadoop

tar -zxvf hadoopxxx.tar.gz -C /opt/install

声明：本文内容由网友自发贡献，转载请注明出处：【wpsshop博客】

python大数据基础知识点（Hadoop+HDFS+MapReduce+Hive+Hbase）_hadooppython 编程语言 灵活运用 hdfs,hive,spark,mapreduce 等

python大数据基础知识点（Hadoop+HDFS+MapReduce+Hive+Hbase）_hadooppython 编程语言灵活运用 hdfs,hive,spark,mapreduce 等