赞
踩
1)数据参数
用户的历史微博数据
截止到20131215
压缩后244MB,解压后878MB
2)数据类型
整个数据是json格式
json中字段描述:
beCommentWeiboId 是否评论
beForwardWeiboId 是否是转发微博
catchTime 抓取时间
commentCount 评论次数
content 内容
createTime 创建时间
info1 信息字段1
info2信息字段2
info3信息字段3
mlevel no sure
musicurl 音乐链接
pic_list 照片列表(可以有多个)
praiseCount 点赞人数
reportCount 转发人数
source 数据来源
userId 用户id
videourl 视频链接
weiboId 微博id
weiboUrl 微博网址
1. 组织数据(Hive)
创建Hive表weibo(json STRING),表只有一个字段,导入所有数据,并验证查询前3条数据
1>建表(建库)
①创建数据库:create database weibo;
②切换数据库:use weibo;
③创建外部表:create external tableweibo(json string) row format delimited lines terminated by "\n"stored as textfile location "/exam/weibo";
2>导入数据
①上传数据:
②解压文件:unzip weibo.zip
③上传数据:hdfs dfs -put ~/data/619893/*/exam/weibo/
3>验证查询前三条数据
select json from weibo limit 3;
2. 统计需求(Hive)
(1)统计微博总量和独立用户数</
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。