当前位置:   article > 正文

搜狗搜索日志分析系统500w数据(一、数据预处理(Linux))_hadoop sogou.500w

hadoop sogou.500w

环境:
maxos上parallel虚拟机安装的centos7
hadoop2.6.0

一、数据预处理(Linux环境)

搜狗数据的数据格式:
访问时间\t 用户 ID\t[查询词]\t 该 URL 在返回结果中的排名\t 用户点击的顺序号\t 用户点击的 URL

其中,用户 ID 是根据用户使用浏览器访问搜索引擎时的 Cookie 信息自动赋值,即同一次使用浏览器输入的不同查询对应同一个用户 ID。

1.查看数据
进入实验数据文件夹

[hadoop@localhost ~]$ cd /home/hadoop/resources/sogou-data/500w
  • 1

less查看

[hadoop@localhost 500w]$ less sogou.500w.utf8
  • 1

在这里插入图片描述
(注:进入less查看后,按e可以查看下一条数据,按q退出。)

查看总行数:

[hadoop@localhost 500w]$ wc -l sogou.500w.utf8
  • 1

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/Li_阴宅/article/detail/745155
推荐阅读
相关标签
  

闽ICP备14008679号