当前位置:   article > 正文

虚拟机上进行Hadoop伪分布式部署并进行大数据处理_基于virtualbox虚拟机部署伪分布式hadoop环境_在虚拟机部署一个开源的单机版的伪分布式hadoop大数据环境

在虚拟机部署一个开源的单机版的伪分布式hadoop大数据环境

3:填写安装信息(登录系统要用,这里记好,下面的密码为123456,可自己设置)

4:命名虚拟机不管,直接下一步。

(默认配置足够用了,直接下一步)

5:一直下一步到配置虚拟磁盘大小为40GB,然后一直下一步到结束。

虚拟机与主机联网配置(不联网linux的安装指令和去网页下载东西都不行,这部分比较多,沉下心操作):

1:启动虚拟机等待其安装系统结束

2:配置网络(此时虚拟机是用不了网络的)

因为创建虚拟机的时候使用的是NAT模式,使用的是VMnet8,在自己的windows系统电脑中使用win+R并输入cmd,在命令行界面输入ipconfig:

We can see that VMnet8’s ip address is192.168.200.1,当然不同的电脑在不同的地区不一样,看自己的电脑就行。

3:网关与网段的介绍(步骤4的前导知识)

网段:网络地址相同的IP地址属于同一网段,即同一子网。

网关:同一网段(子网)间终端可直接通信,不在同一网段(子网)的终端不能直接通信,需要通过网关才能通信。

4:点击VMware的虚拟网络编辑器

5:点击VMnet8然后点击NAT设置,并将网关设置为与子网IP前三个数字相同但是最后一个数字为2-254中任意一个数字(我以2为例),保证宿主机与虚拟机网关相同。

6:在windows系统中的控制面板一直打开到网络连接位置:

7:右键VMnet8的属性

8:右键Internet协议版本4(TCP/IPV4)的属性,并设置默认网关与第5步相同的网关并点击确定,每个人的电脑是不一样的。

9:打开虚拟机的火狐浏览器,左边导航栏的那只狐狸图标,然后点击setting,并修改搜索引擎search为bing

10:即可上网浏览(这个镜像没有中文输入法,命令可搜索其它博客,因为用不到,所以我没下载)

Xshell安装(去官网下载即可):

虚拟机上安装ssh并用xhell连接虚拟机

能否用xshell链接虚拟机,需要被连接机器上安装有ssh。

ssh安装步骤:

1:在Ubuntu桌面右键点击Open in Terminal

2:输入sudo su到root用户下面

3:输入下面命令(如果哪条指令没有就可以去网上搜安装命令):

安装ssh

apt-get install openssh-server

cd /etc/ssh/

vim sshd_config

注意:

修改为:

ssh localhost

输入yes,然后乱输,一直结束,然后直接往下操作,别管他的报错。

cd ~/.ssh/

ssh-keygen -t rsa

一直回车

cat ./id_rsa.pub >> ./authorized_keys

4:输入ifconfig,查看ens33的inet为多少,然后用xshell去连接,这里我的是192.168.200.129

5:在xshell新建会话

6:输入虚拟机的ip地址

7:双击master

8:因为虚拟机信息就用的master

这里的密码是自己虚拟机的密码

这样就连接上自己的虚拟机了

JAVA环境安装

1:在https://www.oracle.com/java/technologies/javase/javase-jdk8-downloads.html下载

2:在hadoop官网下载hadoop-2.7.7

3:在Ubuntu命令行中安装sz命令与rz命令(记得在xshell中使用sudo su到root用户)

apt-get install lrzsz

4:

cd /home/master/

mkdir bighomework

cd bighomework

5:从windows上传文件到Ubuntu上面

rz

6:解压这两个文件:

tar -zxvf jdk-8u371-linux-x64.tar.gz

tar -zxvf hadoop-2.7.7.tar.gz

7: 配置环境变量

cd /etc

vim profile

在文件中输入(注意这个master路径是不是自己虚拟机的,不要直接粘了就不管了)

export JAVA_HOME=/home/master/bighomework/jdk1.8.0_371
export JRE_HOME= J A V A H O M E / j r e e x p o r t C L A S S P A T H = . : {JAVA_HOME}/jre export CLASSPATH=.: JAVAHOME/jreexportCLASSPATH=.:{JAVA_HOME}/lib: J R E H O M E / l i b e x p o r t P A T H = {JRE_HOME}/lib export PATH= JREHOME/libexportPATH={JAVA_HOME}/bin: P A T H e x p o r t H A D O O P H O M E = / h o m e / m a s t e r / b i g h o m e w o r k / h a d o o p − 2.7.7 e x p o r t P A T H = PATH export HADOOP_HOME=/home/master/bighomework/hadoop-2.7.7 export PATH= PATHexportHADOOPHOME=/home/master/bighomework/hadoop2.7.7exportPATH=HADOOP_HOME/bin: H A D O O P H O M E / s b i n : HADOOP_HOME/sbin: HADOOPHOME/sbin:PATH

保存文件并退出

执行

source profile

java -version

hadoop version

可以看到

配置hadoop-env.sh

cd /home/master/bighomework/hadoop-2.7.7/etc/hadoop

vim hadoop-env.sh

输入

export JAVA_HOME=/home/master/bighomework/jdk1.8.0_371
export HADOOP_HOME=/home/master/bighomework/hadoop-2.7.7

配置core-site.xml

vim core-site.xml

cd /home/master/bighomework/hadoop-2.7.7

mkdir tmp

cd /home/master/bighomework/hadoop-2.7.7/etc/hadoop

vim core-site.xml

输入

hadoop.tmp.dir /home/master/bighomework/hadoop-2.7.7/tmp fs.default.name hdfs://localhost:9000

配置hdfs-site.xml

vim hdfs-site.xml

dfs.replication 1 dfs.namenode.name.dir /home/master/hadoop-2.7.7/tmp/dfs/name dfs.datanode.data.dir /home/master/hadoop-2.7.7/tmp/dfs/data

cd /home/master/bighomework/hadoop-2.7.7/tmp

mkdir dfs

cd dfs

mkdir name

mkdir data

启动hadoop集群节点

hdfs namenode -format

cd /home/master/bighomework/hadoop-2.7.7/sbin

start-dfs.sh

等待结束(可能会暂停输入yes)

jps

可以看到DataNode与NameNode与SecondaryNameNode启动成功

cd /home/master/bighomework/hadoop-2.7.7/etc/hadoop

vim yarn-site.xml

输入

yarn.nodemanager.aux-services mapreduce_shuffle

vim mapred-site.xml.template

输入

mapreduce.framework.name yarn

cd /home/master/bighomework/hadoop-2.7.7/sbin

start-all.sh

等待运行结束

jps

可以发现六个东西都出来了

数据处理:

1:这是一个乱码csv

2:将该csv以txt文本形式打开

3:txt是不乱码的

4:点击文件的另存为

5:选择带有BOM的UTF-8进行保存(也可以ANSI,只是不知道后面的idea代码会不会识别ANSI格式文字不乱码)

  6:csv正常显示

处理好文件后将文件上传到bighomework文件夹下,再创建一个project(后面用)

hadoop dfs -put data.csv /

hadoop dfs -ls /

文件已上传上去

下载idea编译器

在VMware虚拟机的火狐浏览器中输入idea

点击下载后,下拉页面并下载社区版的idea,这是一个tar.gz,按照前面的解压缩命令可以执行安装。

下载完后进入xshell输入

cd /home/master/Downloads

默认的Ubuntu下载都在这个文件夹下

tar -zxvf ideaIC-2023.1.3.tar.gz

但凡下载的东西都在在Downloads下面运行

在VMware虚拟机打开Open in Terminal

sudo su

cd ~/Downloads/idea-IC-231.9161.38/bin
./idea.sh

于是打开了idea,开始点击New Project,创建一个Maven工程文件,我将工程文件放在了

/home/master/bighomework/project下面

JDK路径为下载的安装包

在Pom.xml文件中添加

org.apache.spark spark-core_${scala.version} ${spark.version} org.apache.hadoop hadoop-hdfs-client org.apache.hadoop hadoop-common 2.7.7 org.apache.hadoop hadoop-hdfs 2.7.7

点击右侧Maven,并点击这个圈圈进行更新。

在Main类中代码改为如下(注意爆红的类引入类,之前Pom已经把这些类下好了),通过Spark读取之前上传的csv的文件:

public class Main {
public static void main(String[] args) {
SparkConf sparkConf = new SparkConf()
.setAppName(“testsparkjava”).setMaster(“local”);
SparkContext sparkContext = new SparkContext(sparkConf);
RDD rdd = sparkContext.textFile(“hdfs://localhost:9000/data.csv”,
1);
System.out.println(rdd.first());
}
}

执行结果如下:

mysql配置:

1:打开Open in Terminal

2:

sudo su

sudo apt update

sudo apt install mysql-server

sudo systemctl start mysql

mysql

SHOW VARIABLES LIKE ‘validate_password%’;

Mysql命令一定是以冒号结尾的

这里修改密码长度的8为6,方便设置密码为123456,将密码的规则设置为最低级;

set global validate_password.policy=0;

set global validate_password.length=6;

修改成功:

3:开始给所有用户赋予访问权限:

create user ‘root’@‘%’ identified by '123456’;

GRANT ALL PRIVILEGES ON . TO ‘admin’@‘%’;

flush privileges;

ALTER USER ‘root’@‘%’ IDENTIFIED WITH mysql_native_password BY ‘123456’;

flush privileges;

exit

exit回到主命令行,不是mysql里面了。

4:

sudo mysql_secure_installation

填入密码

Do you wish to continue with the password provided? 填y
Remove anonymous users?填n
Disallow root login remotely?填n
Remove test database and access to it? 填n
Reload privilege tables now? (Press y|Y for Yes, any other key for No) 填n

5:之后登录mysql使用命令

自我介绍一下,小编13年上海交大毕业,曾经在小公司待过,也去过华为、OPPO等大厂,18年进入阿里一直到现在。

深知大多数大数据工程师,想要提升技能,往往是自己摸索成长或者是报班学习,但对于培训机构动则几千的学费,着实压力不小。自己不成体系的自学效果低效又漫长,而且极易碰到天花板技术停滞不前!

因此收集整理了一份《2024年大数据全套学习资料》,初衷也很简单,就是希望能够帮助到想自学提升又不知道该从何学起的朋友。
img
img
img
img
img

既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,基本涵盖了95%以上大数据开发知识点,真正体系化!

由于文件比较大,这里只是将部分目录大纲截图出来,每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频,并且后续会持续更新

如果你觉得这些内容对你有帮助,可以添加VX:vip204888 (备注大数据获取)
img

ou wish to continue with the password provided? 填y
Remove anonymous users?填n
Disallow root login remotely?填n
Remove test database and access to it? 填n
Reload privilege tables now? (Press y|Y for Yes, any other key for No) 填n

5:之后登录mysql使用命令

自我介绍一下,小编13年上海交大毕业,曾经在小公司待过,也去过华为、OPPO等大厂,18年进入阿里一直到现在。

深知大多数大数据工程师,想要提升技能,往往是自己摸索成长或者是报班学习,但对于培训机构动则几千的学费,着实压力不小。自己不成体系的自学效果低效又漫长,而且极易碰到天花板技术停滞不前!

因此收集整理了一份《2024年大数据全套学习资料》,初衷也很简单,就是希望能够帮助到想自学提升又不知道该从何学起的朋友。
[外链图片转存中…(img-YgvJVH2W-1712589137912)]
[外链图片转存中…(img-9arqaEU2-1712589137912)]
[外链图片转存中…(img-BeZYDMJS-1712589137913)]
[外链图片转存中…(img-xozUnq4a-1712589137913)]
[外链图片转存中…(img-ADHI3jfg-1712589137913)]

既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,基本涵盖了95%以上大数据开发知识点,真正体系化!

由于文件比较大,这里只是将部分目录大纲截图出来,每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频,并且后续会持续更新

如果你觉得这些内容对你有帮助,可以添加VX:vip204888 (备注大数据获取)
[外链图片转存中…(img-Uvxpqfxn-1712589137914)]

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/我家小花儿/article/detail/651202
推荐阅读
相关标签
  

闽ICP备14008679号