赞
踩
来点干货吧。后面可能工作比较多了,技术选型和架构工作要多一点了。
移除点击此处添加图片说明文字今天周六,很快,公司的BI要自己部门做了,新架构师希望我们原来的框架有较大改动,后期我需要帮助他很多工作,他的宗旨就是,能偷懒的就不要人为做,一切都尽量实现可配置化,目标是90%,是的,你没听错。开发也要实现配置,而且后期要做推荐系统和用户画像。
我们快速记录一片mr从无到有的记录文档吧。首先mr我就不介绍了,map、reduce的最基本的wordcount程序可以很轻松实现。网上教程铺天盖地的,今天我们讲整合,同时因为签了保密协议,为了公司好,我们很多关键部位任然需要马赛克。
那接下来,我们需要介绍一下,这个工作是我们从日志文件中要用mr做清洗,日志数据是已经是json格式了。
好吧,我们自己单机调试阶段吧,先来下载一个vmware,然后从网上随便找一个单机节点hadoop的快照,
移除点击此处添加图片说明文字
因为是DHCP,然后我们要做的是nat自动分配的ip要找到可用的域,所以别急。
移除点击此处添加图片说明文字
在此之前,我们遇到过一个坑,那我直接就把解决办法放在这里了,
移除点击此处添加图片说明文字
我们win+r键,打开cmd直接输入:services.msc
把这两个开开。
移除点击此处添加图片说明文字
否则虚拟机拿不到自动ip。
这时候,我们启动之后,进入操作系统,一般我们需要做几件事。我交代一下。
1.关闭防火墙
service iptables stop
Chkconfig iptables off
2.做时间同步
yum -y install ntp
crontab -e
*/10 * * * * /usr/sbin/ntpdate time.nist.gov
3.cd /etc/sysconfig/network-scripts/
我们要 vi ifcfg-eth0
将ip改为刚才能拿到的域下ip,gateway设为域下的.2 dns8.8.8.8.8 就好了。
如果不适宜,也可以图形化界面里面右键网卡,edit编辑可用的ip
移除点击此处添加图片说明文字
4.网卡重启
service network restart时如果failed处理方法
cd /etc/udev/reles.d
vi 70-presistent-net.rules
仅保留我们ifcfg-eth0中的某一个网络设置即可。当然,你也可以暴力的选择闪了这个 70-presistent-net.rules文件 ,因为系统将从新生成可用的。init 0 即可。
到这里应该就可以了,重启之后,ping一下百度。这里注意,我设置了beifeng是最高权限了,所以,我切换过来了。你们不需要,用root就可以了。
移除点击此处添加图片说明文字补充一下,可以为了后面能浏览器用域,这里可以改一下hosts文件,把主机名改一下:
移除点击此处添加图片说明文字然后可以ping一下主机名,
移除点击此处添加图片说明文字
直接启动hadoop:
移除点击此处添加图片说明文字
可以看到
移除点击此处添加图片说明文字
到这里,jdk、hadoop预先已经装好了,所以,也不赘述,详情可以买些书、网上资料查一下,配置集群、ssh都有教程,也不是这篇文档的重点。重点是,接下来hadoop的处理数据逻辑。
接下来我们准备测试数据,7个G吧,
移除点击此处添加图片说明文字
移除点击此处添加图片说明文字
然后我们shell进入,
移除点击此处添加图片说明文字然后我们再hadoop上创建目录,放置待处理数据。cd modules/hadoop 目录
bin/hdfs dfs -mkdir /files
bin/hdfs dfs -put input路径文件夹 output目标文件夹
此时,我们可以看到的。
移除点击此处添加图片说明文字
移除点击此处添加图片说明文字接下来,我们打开
移除点击此处添加图片说明文字
移除点击此处添加图片说明文字
移除点击此处添加图片说明文字
移除点击此处添加图片说明文字
配置maven
移除点击此处添加图片说明文字install一下
移除点击此处添加图片说明文字jar包打好了,放到服务器上,ok了。
移除点击此处添加图片说明文字
切换shell,跑mr。这中间也有一些路径的坑,一并粘贴出来,
移除点击此处添加图片说明文字结束,
移除点击此处添加图片说明文字
移除点击此处添加图片说明文字
可以下载
移除点击此处添加图片说明文字结束。这就是完整的mapreduce跑的程序。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。