赞
踩
**1、组织数据 (需要处理每条数据开头和结尾的中括号)
(1)创建Hive表weibo_json(json string),表只有一个字段,导入所有数据,并验证查询前5条数据 **
create table weibo_json(json string);
load data local inpath '/root/weibo.txt' into table weibo_json;
select * from weibo_json limit 5;
(2)解析完weibo_json当中的json格式数据到拥有19个字段的weibo表中,写出必要的SQL语句
create table weibo as select json_tuple(json, 'beCommentWeiboId' ,'beForwardWeiboId' ,'catchTime' ,'commentCount' ,'content' ,'createTime' ,'info1' ,'info2' ,'info3' ,'mlevel' ,'musicurl' ,'pic_list' ,'praiseCount' ,'reportCount' ,'source' ,'userId' ,'videourl' ,'weiboId' ,'weiboUrl' ) as (beCommentWeiboId ,beForwardWeiboId ,catchTime ,commentCount ,content ,createTime ,info1 ,info2 ,info3 ,mlevel ,musicurl ,pic_list ,praiseCount ,reportCount ,source ,userId ,videourl ,weiboId ,weiboUrl ) from weibo_json;
2、统计微博总量 和 独立用户数
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。