赞
踩
本篇Blog转载于我个人博客: https://jarlor.github.io/2023/10/15/hadoop-on-docker/
在大数据领域,Hadoop生态系统是目前最受欢迎的大数据处理框架,它包括Hadoop、Hive、HBase、Spark、Flink等多个关键组件,这些组件可以协同工作,建立出一个全面的大数据处理系统。
但是,这些组件的安装和配置(完全分布式集群)是一件非常繁琐的事情。对于想入门大数据,创建一个学习用的大数据环境的同学来说,无疑是一道难以逾越的鸿沟。
本文将介绍如何使用Docker和Ambari,在一台主机上快速搭建Hadoop生态集群。
本环境搭建下的hadoop生态集群供学习使用,为降低搭建难度,作者刻意弱化了集群安全性部署,故该集群不适用于生产环境。
一台Ubuntu系统的Linux宿主机(支持虚拟机)
克隆Github仓库到Linux宿主机
下载相关离线软件(资源比较多,约7G)
这里提供百度网盘链接:https://pan.baidu.com/s/1gTkuPH_IdcZBvwzAK4Ew-A?pwd=here
注:HDP标准版的软件包远大于此,为进一步精简该包,本下载链接只保留了大数据标准组件。如需更多组件,请去此链接下载。
请将文件下载到上一步克隆下来的仓库目录下的software/文件夹下。举例如下图:
本小节的目的是配置脚本运行环境必要的参数,涉及到的文件是 hadoop_on_docker/cluster_config。
请根据注释填写相关配置项。
#集群参数配置
#本机ip
export host_ip='192.168.100.100'
#网卡名
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。