赞
踩
3:填写安装信息(登录系统要用,这里记好,下面的密码为123456,可自己设置)
4:命名虚拟机不管,直接下一步。
(默认配置足够用了,直接下一步)
5:一直下一步到配置虚拟磁盘大小为40GB,然后一直下一步到结束。
虚拟机与主机联网配置(不联网linux的安装指令和去网页下载东西都不行,这部分比较多,沉下心操作):
1:启动虚拟机等待其安装系统结束
2:配置网络(此时虚拟机是用不了网络的)
因为创建虚拟机的时候使用的是NAT模式,使用的是VMnet8,在自己的windows系统电脑中使用win+R并输入cmd,在命令行界面输入ipconfig:
We can see that VMnet8’s ip address is192.168.200.1,当然不同的电脑在不同的地区不一样,看自己的电脑就行。
3:网关与网段的介绍(步骤4的前导知识)
网段:网络地址相同的IP地址属于同一网段,即同一子网。
网关:同一网段(子网)间终端可直接通信,不在同一网段(子网)的终端不能直接通信,需要通过网关才能通信。
4:点击VMware的虚拟网络编辑器
5:点击VMnet8然后点击NAT设置,并将网关设置为与子网IP前三个数字相同但是最后一个数字为2-254中任意一个数字(我以2为例),保证宿主机与虚拟机网关相同。
6:在windows系统中的控制面板一直打开到网络连接位置:
7:右键VMnet8的属性
8:右键Internet协议版本4(TCP/IPV4)的属性,并设置默认网关与第5步相同的网关并点击确定,每个人的电脑是不一样的。
9:打开虚拟机的火狐浏览器,左边导航栏的那只狐狸图标,然后点击setting,并修改搜索引擎search为bing
10:即可上网浏览(这个镜像没有中文输入法,命令可搜索其它博客,因为用不到,所以我没下载)
Xshell安装(去官网下载即可):
虚拟机上安装ssh并用xhell连接虚拟机
能否用xshell链接虚拟机,需要被连接机器上安装有ssh。
ssh安装步骤:
1:在Ubuntu桌面右键点击Open in Terminal
2:输入sudo su到root用户下面
3:输入下面命令(如果哪条指令没有就可以去网上搜安装命令):
安装ssh
apt-get install openssh-server
cd /etc/ssh/
vim sshd_config
注意:
修改为:
ssh localhost
输入yes,然后乱输,一直结束,然后直接往下操作,别管他的报错。
cd ~/.ssh/
ssh-keygen -t rsa
一直回车
cat ./id_rsa.pub >> ./authorized_keys
4:输入ifconfig,查看ens33的inet为多少,然后用xshell去连接,这里我的是192.168.200.129
5:在xshell新建会话
6:输入虚拟机的ip地址
7:双击master
8:因为虚拟机信息就用的master
这里的密码是自己虚拟机的密码
这样就连接上自己的虚拟机了
JAVA环境安装
1:在https://www.oracle.com/java/technologies/javase/javase-jdk8-downloads.html下载
2:在hadoop官网下载hadoop-2.7.7
3:在Ubuntu命令行中安装sz命令与rz命令(记得在xshell中使用sudo su到root用户)
apt-get install lrzsz
4:
cd /home/master/
mkdir bighomework
cd bighomework
5:从windows上传文件到Ubuntu上面
rz
6:解压这两个文件:
tar -zxvf jdk-8u371-linux-x64.tar.gz
tar -zxvf hadoop-2.7.7.tar.gz
7: 配置环境变量
cd /etc
vim profile
在文件中输入(注意这个master路径是不是自己虚拟机的,不要直接粘了就不管了)
export JAVA_HOME=/home/master/bighomework/jdk1.8.0_371
export JRE_HOME=
J
A
V
A
H
O
M
E
/
j
r
e
e
x
p
o
r
t
C
L
A
S
S
P
A
T
H
=
.
:
{JAVA_HOME}/jre export CLASSPATH=.:
JAVAHOME/jreexportCLASSPATH=.:{JAVA_HOME}/lib:
J
R
E
H
O
M
E
/
l
i
b
e
x
p
o
r
t
P
A
T
H
=
{JRE_HOME}/lib export PATH=
JREHOME/libexportPATH={JAVA_HOME}/bin:
P
A
T
H
e
x
p
o
r
t
H
A
D
O
O
P
H
O
M
E
=
/
h
o
m
e
/
m
a
s
t
e
r
/
b
i
g
h
o
m
e
w
o
r
k
/
h
a
d
o
o
p
−
2.7.7
e
x
p
o
r
t
P
A
T
H
=
PATH export HADOOP_HOME=/home/master/bighomework/hadoop-2.7.7 export PATH=
PATHexportHADOOPHOME=/home/master/bighomework/hadoop−2.7.7exportPATH=HADOOP_HOME/bin:
H
A
D
O
O
P
H
O
M
E
/
s
b
i
n
:
HADOOP_HOME/sbin:
HADOOPHOME/sbin:PATH
保存文件并退出
执行
source profile
java -version
hadoop version
可以看到
配置hadoop-env.sh
cd /home/master/bighomework/hadoop-2.7.7/etc/hadoop
vim hadoop-env.sh
输入
export JAVA_HOME=/home/master/bighomework/jdk1.8.0_371
export HADOOP_HOME=/home/master/bighomework/hadoop-2.7.7
配置core-site.xml
vim core-site.xml
cd /home/master/bighomework/hadoop-2.7.7
mkdir tmp
cd /home/master/bighomework/hadoop-2.7.7/etc/hadoop
vim core-site.xml
输入
hadoop.tmp.dir /home/master/bighomework/hadoop-2.7.7/tmp fs.default.name hdfs://localhost:9000配置hdfs-site.xml
vim hdfs-site.xml
dfs.replication 1 dfs.namenode.name.dir /home/master/hadoop-2.7.7/tmp/dfs/name dfs.datanode.data.dir /home/master/hadoop-2.7.7/tmp/dfs/datacd /home/master/bighomework/hadoop-2.7.7/tmp
mkdir dfs
cd dfs
mkdir name
mkdir data
启动hadoop集群节点
hdfs namenode -format
cd /home/master/bighomework/hadoop-2.7.7/sbin
start-dfs.sh
等待结束(可能会暂停输入yes)
jps
可以看到DataNode与NameNode与SecondaryNameNode启动成功
cd /home/master/bighomework/hadoop-2.7.7/etc/hadoop
vim yarn-site.xml
输入
yarn.nodemanager.aux-services mapreduce_shufflevim mapred-site.xml.template
输入
mapreduce.framework.name yarncd /home/master/bighomework/hadoop-2.7.7/sbin
start-all.sh
等待运行结束
jps
可以发现六个东西都出来了
数据处理:
1:这是一个乱码csv
2:将该csv以txt文本形式打开
3:txt是不乱码的
4:点击文件的另存为
5:选择带有BOM的UTF-8进行保存(也可以ANSI,只是不知道后面的idea代码会不会识别ANSI格式文字不乱码)
6:csv正常显示
处理好文件后将文件上传到bighomework文件夹下,再创建一个project(后面用)
hadoop dfs -put data.csv /
hadoop dfs -ls /
文件已上传上去
下载idea编译器
在VMware虚拟机的火狐浏览器中输入idea
点击下载后,下拉页面并下载社区版的idea,这是一个tar.gz,按照前面的解压缩命令可以执行安装。
下载完后进入xshell输入
cd /home/master/Downloads
默认的Ubuntu下载都在这个文件夹下
tar -zxvf ideaIC-2023.1.3.tar.gz
但凡下载的东西都在在Downloads下面运行
在VMware虚拟机打开Open in Terminal
sudo su
cd ~/Downloads/idea-IC-231.9161.38/bin
./idea.sh
于是打开了idea,开始点击New Project,创建一个Maven工程文件,我将工程文件放在了
/home/master/bighomework/project下面
JDK路径为下载的安装包
在Pom.xml文件中添加
org.apache.spark spark-core_${scala.version} ${spark.version} org.apache.hadoop hadoop-hdfs-client org.apache.hadoop hadoop-common 2.7.7 org.apache.hadoop hadoop-hdfs 2.7.7点击右侧Maven,并点击这个圈圈进行更新。
在Main类中代码改为如下(注意爆红的类引入类,之前Pom已经把这些类下好了),通过Spark读取之前上传的csv的文件:
public class Main {
public static void main(String[] args) {
SparkConf sparkConf = new SparkConf()
.setAppName(“testsparkjava”).setMaster(“local”);
SparkContext sparkContext = new SparkContext(sparkConf);
RDD rdd = sparkContext.textFile(“hdfs://localhost:9000/data.csv”,
1);
System.out.println(rdd.first());
}
}
执行结果如下:
mysql配置:
1:打开Open in Terminal
2:
sudo su
sudo apt update
sudo apt install mysql-server
sudo systemctl start mysql
mysql
SHOW VARIABLES LIKE ‘validate_password%’;
Mysql命令一定是以冒号结尾的
这里修改密码长度的8为6,方便设置密码为123456,将密码的规则设置为最低级;
set global validate_password.policy=0;
set global validate_password.length=6;
修改成功:
3:开始给所有用户赋予访问权限:
create user ‘root’@‘%’ identified by '123456’;
GRANT ALL PRIVILEGES ON . TO ‘admin’@‘%’;
flush privileges;
ALTER USER ‘root’@‘%’ IDENTIFIED WITH mysql_native_password BY ‘123456’;
flush privileges;
exit
exit回到主命令行,不是mysql里面了。
4:
sudo mysql_secure_installation
填入密码
Do you wish to continue with the password provided? 填y
Remove anonymous users?填n
Disallow root login remotely?填n
Remove test database and access to it? 填n
Reload privilege tables now? (Press y|Y for Yes, any other key for No) 填n
5:之后登录mysql使用命令
自我介绍一下,小编13年上海交大毕业,曾经在小公司待过,也去过华为、OPPO等大厂,18年进入阿里一直到现在。
深知大多数大数据工程师,想要提升技能,往往是自己摸索成长或者是报班学习,但对于培训机构动则几千的学费,着实压力不小。自己不成体系的自学效果低效又漫长,而且极易碰到天花板技术停滞不前!
因此收集整理了一份《2024年大数据全套学习资料》,初衷也很简单,就是希望能够帮助到想自学提升又不知道该从何学起的朋友。
既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,基本涵盖了95%以上大数据开发知识点,真正体系化!
由于文件比较大,这里只是将部分目录大纲截图出来,每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频,并且后续会持续更新
如果你觉得这些内容对你有帮助,可以添加VX:vip204888 (备注大数据获取)
ou wish to continue with the password provided? 填y
Remove anonymous users?填n
Disallow root login remotely?填n
Remove test database and access to it? 填n
Reload privilege tables now? (Press y|Y for Yes, any other key for No) 填n
5:之后登录mysql使用命令
自我介绍一下,小编13年上海交大毕业,曾经在小公司待过,也去过华为、OPPO等大厂,18年进入阿里一直到现在。
深知大多数大数据工程师,想要提升技能,往往是自己摸索成长或者是报班学习,但对于培训机构动则几千的学费,着实压力不小。自己不成体系的自学效果低效又漫长,而且极易碰到天花板技术停滞不前!
因此收集整理了一份《2024年大数据全套学习资料》,初衷也很简单,就是希望能够帮助到想自学提升又不知道该从何学起的朋友。
[外链图片转存中…(img-YgvJVH2W-1712589137912)]
[外链图片转存中…(img-9arqaEU2-1712589137912)]
[外链图片转存中…(img-BeZYDMJS-1712589137913)]
[外链图片转存中…(img-xozUnq4a-1712589137913)]
[外链图片转存中…(img-ADHI3jfg-1712589137913)]
既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,基本涵盖了95%以上大数据开发知识点,真正体系化!
由于文件比较大,这里只是将部分目录大纲截图出来,每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频,并且后续会持续更新
如果你觉得这些内容对你有帮助,可以添加VX:vip204888 (备注大数据获取)
[外链图片转存中…(img-Uvxpqfxn-1712589137914)]
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。