赞
踩
上个星期电脑被我搞坏了之后很多软件就没再安装了,昨天看到阿里宣传的大数据比赛,于是连夜开始重新安装数据挖掘的各种软件,下面就记录一下,也算是记下我比赛的进程吧:
系统:3.9.10-100.fc17.i686.PAE
包管理软件为Yum,有了Yum,再也不担心软件安装的依赖性问题,首先安装Java,由于之前安装Textlive中依赖Java,所以这里就没必要再安装了,有了Java后就安装Mahout,http://mirrors.cnnic.cn/apache/mahout/0.9/ ,下载mahout-distribution-0.9-src.tar.gz ,由于Mahout需要Maven,所以接着安装Maven, 执行yum install maven。集成开发平台使用eclipse,eclipse的安装也使用Yum,执行yum install eclipse,解压缩mahout,将解压缩的文件移到eclipse的工作目录/home/XXX/workspace/,进入解压缩的文件夹,打开Readme.txt,根据里面的提示依次执行:
mvn -DskipTests clean install (需要一段时间)
mvn eclipse\:eclipse
安装完成后就可以将Mahout导入到eclipse中,这需要m2eclipse的帮助,在eclipae菜单栏中选择帮助—>安装新软件,然后输入me2的安装地址http://download.eclipse.org/technology/m2e/releases 。接着从eclipse->file->import->existing project into workspace,mahout-distribution-0.9目录导入,即可。有时这里会出现错误,如果出现路径问题就是由于某些依赖的jar包没有添加进来,可以通过项目—>属性—>添加包来新增jar包来解决。
下面就是Hadoop的安装了,
创建hadoop用户组:groupadd hadoop
创建hadoop用户并添加到hadoop组里: useradd -g hadoop hadoop
为hadoop设置密码:passwd hadoop,enter后输入密码即可。
为hadoop用户添加root权限,编辑/etc/sudoers:添加hadoop ALL=(ALL:ALL) ALL
JDK需要安装,fedora17中直接使用yum即可。
然后为hadoop,http://mirror.bit.edu.cn/apache/hadoop/common/stable2/,下载hadoop-2.2.0.tar.gz ,解压缩。
首先建立ssh无密码登录
首先要转换成root用户,执行su,输入root密码即可。
创建ssh-key,与GigHub一样,采用rsa方式ssh-keygen -t rsa,然后一路回车就行了,然后, 进入~/.ssh/目录下将公钥另存到authorized_keys中,即执行cat id_rsa.pub > authorized_keys,这样就可以了,可以执行ssh localhost验证一下,无需密码即可登陆。
下面就是给上面解压的Hadoop文件配置了。
首先配置Hadoop环境变量,打开/etc/profile,添加
export HADOOP_HOME=/home/lmdyyh/public/hadoop-2.2.0
export PATH=$HADOOP_HOME/sbin:$PATH
保存后source一下就可以了。
接下来就是配置/home/lmdyyh/public/hadoop-2.2.0/etc/hadoop下的各种文件了,首先是hadoop-env.sh,找到JAVA_HOME,在上面一行添加JAVA_HOME=/usr/bin/java,即自己的JDK路径。
接着是core-site.xml、hdfs-site.xml、yarn-site.xml 、mapred-site.xml.template四个文件。
core-site.xml如下
<property>
<name>fs.default.name</name>
<value>hdfs://localhost:9000</value>
</property>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/home/lmdyyh/hadoop/tmp</value>
</property>
hdfs-site.xml
<property>
<name>dfs.namenode.name.dir</name>
<value>/home/lmdyyh/hadoop/namenode</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>/home/lmdyyh/hadoop/datanode</value>
mapred-site.xml.template
<name>mapreduce.framework.name</name>
<value>yarn</value>
下面切换到Hadoop的安装目录,启动Hadoop,首先格式化hdfs
bin/hdfs namenode -format
启动namenode和datanode
sbin/hadoop-daemon.sh start namenode
sbin/hadoop-daemon.sh start datanode
启动Manager管理,
sbin/yarn-daemon.sh start resourcemanager
sbin/yarn-daemon.sh start nodemanager
执行jps,如果输出如下
4115 Jps
3780 ResourceManager
3680 DataNode
3585 NameNode
4026 NodeManager
则说明都启动成功了。看看Hadoop管理页面,http://127.0.0.1:8088/ 和namenode的节点信息http://127.0.0.1:50070。
以上关闭的命令均是将start替换为stop即可。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。