赞
踩
Hadoop发展史:
- 2002 Apache Nutch 抓取网页,数十亿存储瓶颈
- 2003 GFS论文
- 2004 Nutch开发NDFS,即HDFS前身
- 2004 Google发表MapReduce
- 2005 Nutch应用MR,主要算法转移到MR和NDFS运行
- 2006 MapReduce和NDFS从Nutch分离,形成Hadoop作为一个独立Lucene子项
- 2006 Doug Cutting加入Yahoo
- 2008.2 Yahho/1万内核/hadoop/
- 2008.4 Yahho/1T排序/209秒/910节点
- 2008.11 Google/1T/68秒
- 2009.5 Yahoo/1T/62秒
Hadoop:
1. 可靠、可伸缩、分布式计算的开源软件。
2. HDFS hadoop distributed file system. GFS
3. 去IOE IBM + Oracle + EMC
4. MapRedusce 简称MR 映射和化简,编程模型
5. 推荐系统
big data 4V
1. Volumn 体量大
2. Variaty 样式多
3. Velocity 速度快
4. Valueless 价值密度低
Hadoop包含模块
1. Hadoop common 支持其他模块的工具模块
2. Hadoop Distributed File System (HDFS)。 分布式文件系统,提供了对应用程序数据的吞吐量访问。
1. NameNode 名称节点 –NN
2. DataNode 数据节点 –DN
3. SecondaryNamenode 辅助名称节点 –2ndNN
3. Hadoop YARN yet another resource negotiate 作业调度与集群资源管理框架。
1. ResourceManger 资源管理器 –RM
2. NodeManager 节点管理器 –NM
4. Hadoop MapReduce 基于yarn系统的对大数据集进行并发处理技术。
export JAVA_HOME=/usr/java/jdk1.7.0_71
export PATH=$JAVA_HOME/bin:$PATH
source /etc/profile
java -version
export HADOOP_HOME=/usr/local/hadoop/hadoop
export PATH=$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH
hadoop version
<?xml version="1.0" encoding="UTF-8"?>
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://localhost/</value>
</property>
</configuration>
<?xml version="1.0" encoding="UTF-8"?>
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
</configuration>
<?xml version="1.0"?>
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
<configuration>
<property>
<name>yarn.resourcemanager.hostname</name>
<value>localhost</value>
</property>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
</configuration>
ssh-keygen -t rsa -P '' -f ~/.ssh/
cd ./ssh
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
ssh localhost
hadooop namenode -format
which start-all.sh
start-all.sh
#解决报错,Error: JAVA_HOME is not set and could not be found
#修改/etc/hadoop/hadoop-env.sh中设JAVA_HOME
#export JAVA_HOME=${JAVA_HOME}
export JAVA_HOME=/usr/java/jdk1.8.0_144
#更新配置文件
source /usr/local/hadoop/hadoop/etc/hadoop/hadoop-env.sh
jps #5个 RM NM NN DN 2NN
hadoop fs -ls
hadoop fs -mkdir -p /user/centos/data
hadoop fs -ls -R / # -lsr
JAVA_HOME
、HADOOP_HOME
、PATH
jps # NN DN 2NN RM NM
stop-all.sh
hadoop namenode -format
start-all.sh #不推荐使用,拆分为以下两个脚本
start-dfs.sh
start-yarn.sh
web访问hadoop hdfs:
#访问hdfs
ip:50070
#访问数据节点
ip:50075
#访问SecondaryNamenode
ip:50090
stop-all.sh
分布式:由分布在不同主机上的进程协同在一起,才能构成整个应用。
core-site.xml
fs.defaultFS=hsfs://s100/
yarn-site.xml
yarn.resourcemanager.hostname=s100
slaves
s101
s102
s103
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。