赞
踩
环境:
maxos上parallel虚拟机安装的centos7
hadoop2.6.0
一、数据预处理(Linux环境)
搜狗数据的数据格式:
访问时间\t 用户 ID\t[查询词]\t 该 URL 在返回结果中的排名\t 用户点击的顺序号\t 用户点击的 URL
其中,用户 ID 是根据用户使用浏览器访问搜索引擎时的 Cookie 信息自动赋值,即同一次使用浏览器输入的不同查询对应同一个用户 ID。
1.查看数据
进入实验数据文件夹
[hadoop@localhost ~]$ cd /home/hadoop/resources/sogou-data/500w
less查看
[hadoop@localhost 500w]$ less sogou.500w.utf8
(注:进入less查看后,按e可以查看下一条数据,按q退出。)
查看总行数:
[hadoop@localhost 500w]$ wc -l sogou.500w.utf8
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。