赞
踩
node1,node2,node3的信息说明
已经安装mysql5.7,hadoop3.3.0,hive,spark3,kafka
ip连接地址
node1 192.168.88.100
node2 192.168.88.101
node3 192.168.88.102
登录账号 三台一样
账号 root
密码 123456
mysql数据的账号
账号 root
密码 123456
什么是集群,什么是分布式?(多台服务器参与运行)
集群: 多台服务器共同完成相同的业务,就是一个集群.
分布式: 多台服务器共同完成不同的业务就是分布式.
安装部署层面说
单机部署
使用一台服务器安装所有服务
集群部署
使用多台服务器安装对应分布式服务
将已经安装的虚拟机进行拷贝复制得到node2,node3
修改机器名称
参考centos软件安装文档
服务器之间传递数据,依赖ssh协议
http协议是web网站之间的通讯协议,用户可已通过http网址访问到对应网站数据
ssh协议是服务器之间,或windos和服务器之间传递的数据的协议。支持shell指令的传输
在linux中默认自带ssh客户端,可以使用ssh指令进行服务器连接
ssh 用户@ip地址或域名
ssh免密登录
每次登录不需要再输入密码
分别在node1、node2、node3上执行如下命令
# 生成秘钥 ssh-keygen
# 拷贝秘钥 ssh-copy-id node1 ssh-copy-id node2 ssh-copy-id node3
基于ssh协议进行服务器之间的文件或目录的传输
使用指令scp
scp -r 本机文件或目录路径 目标服务器名:目标服务器路径
大数据的软件工具需要依赖java环境
tar.gz文件使用tar指令解压
tar xvf 压缩包文件 x 代表解压 v 显示解压详情 f 代表解压文件
压缩
tar cvf 压缩包名.tar.gz 文件或目录
安装解压后,使用java是会出现找不到java指令,原因是因为没有指定系统环境变量
默认java指令是在安装包的bin目录下,通过设置系统环境变量,就可以在任意位置使用java指令
linux中系统环境变量在 /etc/profile文件中
echo 'export JAVA_HOME=/export/server/jdk1.8.0_241' >> /etc/profile echo 'export PATH=$PATH:$JAVA_HOME/bin' >> /etc/profile echo 'export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar' >> /etc/profile source /etc/profile
Mysql只需要安装一台服务器 node1
参考安装文档
日常生活中不断产生各类数据,通过对各类数据的分析,得到用户的行为习惯,发现用户的数据价值
随着用户数据增多传统数据处理方式无法满足海量数据处理的需求,此时引入分布式技术
将海量数据进行分布式的存储,计算,资源调度
可以统一管理多台服务器进行存储和计算,把多台服务器当成一个整体
使用hadoop实现分布式存储,计算和资源调度
大数据主要解决海量数据的存储和计算
海量数据
excel KB MB 1MB=1024KB
mysql GB TB 1GB =1024 MB 1TB =1024GB
大数据 PB,EB(海量数据) 1PB=1024TB
KB < MB < GB < TB < PB < EB < ZB < YB
大数据的特点
数据量大
数据种类多
结构化数据
表
半结构化数据
xml
json
非结构数据
文本数据
数据低价值密度
分析用户的消费习惯
用户注册基本信息 姓名,性别,年龄 1个
用户的购买信息 订单数据 手机,2023-10-22 100个
用户浏览信息 浏览哪些商品 100个
用户访问信息 访问网站时间,地点,设备 100000条
1000201条数 有价值的数据200条
增长速度快
每天都会产生大量数据
数据结果质量高
对海量数据结果更接近真实情况
存储:Apache Hadoop HDFS、Apache HBase、Apache Kudu、云平台
计算:Apache Hadoop MapReduce、Apache Spark、Apache Flink
传输:Apache Kafka、Apache Pulsar、Apache Flume、Apache Sqoop
Hadoop的功能组件
HDFS分布式文件存储系统: 负责海量数据的存储工作
MapReduce分布式计算框架: 负责海量数据的计算工作
Yarn分布式资源调度工具: 负责分布式集群的资源调度工作
Hadoop发展
创始人: 道格·卡丁
Hadoop发行时间: 2008年
hadoop的发展受谷歌的三篇论文影响, 后被称为大数据发展的三驾马车
Hadoop版本
社区版: 开源免费
优点: 更新速度快,技术新
缺点: 兼容性差不稳定
商业版: CDH 将所有大数据相关组件都重写了一遍并进行了精细测试解决了兼容性问题和稳定性问题
优点: 兼容稳定性好
确定: 技术旧,收费
注意: 在企业级开发中我们使用的大多是商业版hadoop, CDH版本Hadoop在6.2.4版本之前是不收费的.
数据体量过大,存储在同一台服务器上空间不足,所以需要对于服务器进行扩展,多台服务共同存储超大文件
存储原理就是将大文件进行分割,分割后,将数据存储在不同的服务器内部
此时不仅可以提供多台服务器的存储空间,同时可以增加服务器的读写效率,cpu,内存,网络带宽等.
今天的学习笔记就到这里 欢迎大家点赞评论 互相交流
祝大家在程序员的道路上越走越远
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。