当前位置:   article > 正文

搜狗日志查询分析 (MapReduce+Hive综合实验)_搜狗搜索日志分析结果hadoop

搜狗搜索日志分析结果hadoop

下载搜狗实验室查询日志,发现编码是UTF-8。
将SogouQ文件夹下的文件从GBK编码转为UTF-8编码,结果存到SogouQ_UTF8中,其下的文件目录不变:
shell命令
find SogouQ -type d -exec mkdir -p SogouQ_UTF-8{} \;

find SogouQ -type f -exec iconv -f GBK -t UTF-8 {} -o SogouQ_UTF-8{} \;
在这里插入图片描述
自定义类实现将分割数据用逗号相连输出
在这里插入图片描述
map方法:正则表达式\s+匹配一个或多个分隔符、空格,不满足五个数据的不输出。
在这里插入图片描述

声明:本文内容由网友自发贡献,转载请注明出处:【wpsshop博客】
推荐阅读
相关标签
  

闽ICP备14008679号