当前位置:   article > 正文

新浪微博大数据分析

微博大数据

**1、组织数据 (需要处理每条数据开头和结尾的中括号)
(1)创建Hive表weibo_json(json string),表只有一个字段,导入所有数据,并验证查询前5条数据 **

    create table weibo_json(json string);
    load data local inpath '/root/weibo.txt' into table weibo_json;
    select * from weibo_json limit 5;
  • 1
  • 2
  • 3

(2)解析完weibo_json当中的json格式数据到拥有19个字段的weibo表中,写出必要的SQL语句

    create table weibo as 
    select json_tuple(json,
    'beCommentWeiboId'
    ,'beForwardWeiboId'
    ,'catchTime'
    ,'commentCount'
    ,'content'
    ,'createTime'
    ,'info1'
    ,'info2'
    ,'info3'
    ,'mlevel'
    ,'musicurl'
    ,'pic_list'
    ,'praiseCount'
    ,'reportCount'
    ,'source'
    ,'userId'
    ,'videourl'
    ,'weiboId'
    ,'weiboUrl'
    ) as 
    (beCommentWeiboId
    ,beForwardWeiboId
    ,catchTime
    ,commentCount
    ,content
    ,createTime
    ,info1
    ,info2
    ,info3
    ,mlevel
    ,musicurl
    ,pic_list
    ,praiseCount
    ,reportCount
    ,source
    ,userId
    ,videourl
    ,weiboId
    ,weiboUrl
    )
    from weibo_json;
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26
  • 27
  • 28
  • 29
  • 30
  • 31
  • 32
  • 33
  • 34
  • 35
  • 36
  • 37
  • 38
  • 39
  • 40
  • 41
  • 42
  • 43

2、统计微博总量 和 独立用户数

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/weixin_40725706/article/detail/175348
推荐阅读
相关标签
  

闽ICP备14008679号