赞
踩
写在开头:目前已经陆陆续续搭建好了Linux、Hadoop相关的环境,可以开始一些简单的实例演示了。后面也会陆续更新这个系列了。
本阶段学习内容的安排的话可能没有具体的内容规划,不会去涉及环境配置、软件安装的内容,主要是以介绍使用为主,以实例出发。大数据需要在Linux系统上进行,然后现在电脑使用的软件如下(部分软件由于学习原因选择的老版本),
软件名称 | 备注 |
---|---|
NetBeans IDE 8.2 | JAVA编译器 |
CentOS 6.6 | Linux系统 |
VMware Workstation11 | 桌面版虚拟机 |
SecureCRT 7.0.0 | 终端仿真程序 |
Hadoop 2.6.5 | 分布式框架 |
Hive 1.2.2 | 数据仓库 |
电脑配置和虚拟机分配方面,因为资金有限,笔记本配置只有16个g,创建了4台虚拟机组建了伪分布式,配置这些已经调整好了,可能还没有安装的朋友在这个安装过程中可能需要费电功夫了,下面开始今天的Mapreduce实战讲解吧。
MapReduce的介绍一时半会儿可能解释不清楚,这里大家可以参考学习一下这篇MapReduce过程总结,讲得还是比较清楚了,好了让我们正式开始吧。
今天要完成的目标是对一个本地txt文档利用MapReduce进行统计分析,所需的流程1.上传数据、2.编写MapReduce Java代码、3.输出结果。
1.上传数据
其实数据就是自己随意编写的一段话,首先需要从本地上传数据,假设我们本地数据放在c盘,然后需要知道自己的master主节点ip地址(可在linux中使用ifconfig进行查看)和上传的文件的目标文件夹,这里上传数据不是上传到linux里,而是直接上传到HDFS里,代码如下,
// 本地上传数据到HDFS package com.mycompany.mavenproject1; import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FileSystem; import org.apache.hadoop.fs.Path; public class NewClass { public static void main(String[] args) throws IOException { Configuration conf = new Configuration(); //初始化配置 conf.set("fs.defaultFS", "hdfs://192.168.0.23:9000"); //连接数据库fs.defaultFS为配置文件、9000为端口号 FileSystem file = FileSystem.get(conf);// 设置文件配置 file.copyFromLocalFile(new Path(
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。