当前位置:   article > 正文

Hive实战_hive> use gulivideo; --查询表 验证数据文件是否映射成功 hive> sele

hive> use gulivideo; --查询表 验证数据文件是否映射成功 hive> select * from g

一.数据结构

 

                1.video表

字段 备注 详细描述
video id 视频唯一id(String) 11位字符串
uploader 视频上传者(String) 上传视频的用户名String
age 视频年龄(int) 视频在平台上的整数天
category 视频类别(Array<String>) 上传视频指定的视频分类
length 视频长度(Int) 整形数字标识的视频长度
views 观看次数(Int) 视频被浏览的次数
rate 视频评分(Double) 满分5分
Ratings 流量(Int) 视频的流量,整型数字
conments 评论数(Int) 一个视频的整数评论数
related ids 相关视频id(Array<String>) 相关视频的id,最多20个

                2.user表

字段 备注 字段类型
uploader 上传者用户名 string
videos 上传视频数 int
friends 朋友数量 int

二、ETL数据清洗

1.观察原始数据显示,寻找分割规则,清洗无效数据

SDNkMu8ZT68	w00dy911	630	People & Blogs	186	10181	3.49	494	257	rjnbgpPJUks

        通过观察原始数据形式,可以发现,视频可以有多个所属分类,每个所属分类用&符号分割,且分

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/神奇cpp/article/detail/964260
推荐阅读
相关标签
  

闽ICP备14008679号