赞
踩
1、本次案例使用的数据是互联网终端访问各大服务所产生的日志,日志内容如下图所示。
从图中可以看出每行出局的列数都是不相等的,且每一列的数据也不相同,我们要对这些数据进行分析很困难,所以需要将这些元数据进行清洗和过滤,过滤出符合统计要求的数据,过滤后的数据如下图所示。
字段说明如下
字段 | 说明 |
---|---|
BeginTime | 采集第一个数据包的时间 |
EndTime | 采集最后一个数据包的时间 |
MSISDN | 用户的手机号码 |
SourceIP | 用户的IP地址 |
SourcePort | 用户的端口号 |
APMAC | AP mac |
APIP | AP IP |
DestinationIP | 用户访问的业务平台的IP地址 |
DestinationPort | 访问的目标端口号 |
Service | 详细的业务类型 |
ServiceType1 | 业务组类型 |
ServiceType2 | 业务组类型2 |
UpPackNum | 上行数据包数 |
DownPackNum | 下行数据包数 |
UpPayLoad | 上行总流量 |
DownPayLoad | 下行总流量 |
HttpStatus | HTTP Response的状态 |
ClientType | 1:浏览器;2:客户端 |
ResponseTime | 第一个包回应时间 |
在/usr/local目录下创建名为"ptyhon"的文件夹,并将源数据(ncmdp.txt)上传到该目录中。
在HDFS中创建"/acelog/input"目录并将"ncmdp.txt"(元数据文件)上传到HDFS中,命令如下。
[root@ma
赞
踩
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。