搜索
查看
编辑修改
首页
UNITY
NODEJS
PYTHON
AI
GIT
PHP
GO
CEF3
JAVA
HTML
CSS
搜索
正经夜光杯
这个屌丝很懒,什么也没留下!
关注作者
热门标签
jquery
HTML
CSS
PHP
ASP
PYTHON
GO
AI
C
C++
C#
PHOTOSHOP
UNITY
iOS
android
vue
xml
爬虫
SEO
LINUX
WINDOWS
JAVA
MFC
CEF3
CAD
NODEJS
GIT
Pyppeteer
article
热门文章
1
分布式系统中间件整理_分布式中间件有那些
2
MQ消息队列详解18:RabbitMQ队列可靠性保证_rabbitmq 实现可靠任务队列
3
布隆过滤器:原理、应用与误判容忍特性解析_布隆过滤器误判解决方案
4
【漏洞复现】Adobe ColdFusion 任意文件读取漏洞 CVE-2024-20767_adobe coldfusion 文件读取漏洞(cve-2024-20767)
5
数据结构_链栈(C语言)_链栈的c语言表示
6
鸿蒙认证值得考吗?_hice 鸿蒙认证
7
Roop丨教你学会用Stable Diffusion插件换脸!
8
dataV+vue 免费大屏模板_vue-admin datav
9
PEFT | Lora、AdaLora、QLora高效调参原理解析,PEFT | Prompt系列高效调参原理解析,PEFT | Transformer参数量、计算量、显存占用分析
10
探索高效开发大屏可视化项目模板:es-big-screen_大屏显示csdn
当前位置:
article
> 正文
hivesql 效率优化_设置参数hive.groupby.skewindata为true能提高效率吗
作者:正经夜光杯 | 2024-08-13 18:10:56
赞
踩
设置参数hive.groupby.skewindata为true能提高效率吗
1.group by 数据倾斜问题
hive是根据group by 的key进行数据分发的,某个key相同的数据太多的会被分发到一个reducer上,key的数据分布不均匀会导致大量数据被shuffle到某个或者某些reducer上,出现严重的数据倾斜,使得数据计算变慢
配置任务参数 set hive.groupby.skewindata=true;
原理:该配置会触发hive增加额外的mr过程,随机化key后进行聚合操作得到中间结果,再对中间结果执行最终的聚合操作
注意:count(distinct) 操作比较特殊,无法进行中间的聚合操作,因此该参数对有count(distinct)操作的sql不适用,如果有count(distinct)的需求可以优化sql,先进行一步group by进行变形
2.map优化
大表join小表时候可以使用map join
配置参数 set hive.auto.convert.join=true;
原理:使用该配置,hive会自动识别比较小的表,继而用mapJoin来实现两个表的联合
3.count(distinct)优化
是第一个问题的延伸,包含count(distinct)操作必须在一个reducer上完成,数据倾斜不能使用预聚合的方式进行优化
配置参数:使用group by替代 count(distinct) 操作,使用group by将count(distinct)等价替换掉
4.join 数据倾斜
hive 根据 join key 对两边表的数据进行shuffle,若key数据分布不均匀会出现数据倾斜的现象
优化方案:
1.保证两种表的粒度是正确的,join key在至少至少一张表中是不重复的,否则会出现类似笛卡尔积的效果,造成数据膨胀
2.如果join key是无意义的空值等,直接剔除掉再进行关联
3.对join key 进行随机化处理
set hive.mapred.mode=nonstrict;
在join过程中对key进行随机化处理
声明:
本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:
https://www.wpsshop.cn/w/正经夜光杯/article/detail/975959
推荐阅读
article
hive
sql
执行优化策略集合_
hive
sql
cluster
by
调大
map
...
map
red.min.split.size.per.node和
map
red.min.split.size.per.rac...
赞
踩
article
使用huggingface中
transformers
的字典和
tokenizer
_
keyword
ar...
本文详细介绍了如何使用Huggingface的Transformers库进行文本编码,包括普通编码、增强编码、批量处理句...
赞
踩
article
大数据系统-系统优化与算法优化方向_
major
technical
advancements
in
...
大数据系统面临的问题一般是有以下几个问题造成的: 数据分布变化产生新的挑战。 计算环境为分布式集群。 针对系统执行过程...
赞
踩
article
Hive
-
ORC
文件
存储
格式
_
hive
的
orc
格式
有什么优点...
本文分析
Hive
中
ORC
文件
存储
格式
的原理和实际案例_
hive
的
orc
格式
有什么优点
hive
的
orc
格式
有什么优点 ...
赞
踩
article
笔记:
Hive
的
主要技术改进(
Major
Technical
Advancements
in
Apa...
笔记:
Hive
的
主要技术改进(
Major
Technical
Advancements
in
Apache
Hive
) ...
赞
踩
article
Hive
——详细总结
Hive
中
各大
查询
语法
_
hive
模糊
查询
...
1. 基础
查询
1.1 WHERE、LIMIT、DISTINCT、BETWEEN、IN的使用1.2 LIKE、GROUP ...
赞
踩
article
hive
-常见
运算符
和
函数
_
hive
%
...
关系
运算符
•等值比较: =•不等值比较: <>•小于比较: <•小于等于比较:...
赞
踩
article
hive
常用
运算
和函数...
hive
常用
运算
第一部分:关系
运算
Hive支持的关系
运算
符•常见的关系
运算
符•等值比较: =•不等值比较: <>•小于...
赞
踩
article
Hive
--函数--常用内置函数--
逻辑
运算
与
数学
运算
_
hive
与
或
操作
...
Hive
数学
运算
加法
操作
: +减法
操作
: -乘法
操作
: *除法
操作
: /取余
操作
: %位
与
操作
: &位或
操作
: |位异或...
赞
踩
article
【
Hive
-
Hive
函数
大全】
Hive
函数
的
语法
使用和
举例
描述_
hive
md5
多少位...
本文详细介绍了
Hive
的各种
函数
,包括关系运算、数学运算、数值计算、日期
函数
、条件
函数
、字符串
函数
、集合统计
函数
、复合类...
赞
踩
article
JAVA开发中专业术语列举_
java
中
tlflash
,
tlkv
,
kylin
,
phonelx
,sp...
堡垒机堡垒机(Access Gateway),即在一个特定的网络环境下,为了保障网络和数据不受来自外部和内部用户的入侵和...
赞
踩
article
Hive
实战_
hive
实战...
Hive
实战需求描述统计硅谷影音视频网站的常规指标,各种 TopN 指标:– 统计视频观看数 Top10– 统计视频类...
赞
踩
article
[
Hive
实战
]
_
hive
项目
实战
...
绿色字体红色字体粉色字体蓝色字体需求:统计各个城市所属区域下最受欢迎的Top 3产品 需要用到窗口函数 (下面再说) ...
赞
踩
article
>
Hive>实战_
>
hive>
>
use
>
gulivideo>; --查询表 验证
>
数据文件>是否映射成功 hiv...
本文详细介绍了在
>
Hive>中进行数据清洗、创建外部表和内部表,以及如何进行业务分析,包括视频观看数、类别热度、视频关联类别...
赞
踩
article
Spark入门实战系列--5.
Hive
(下)--
Hive
实战_
create
external
tab...
1、
Hive
操作演示1.1 内部表1.1.1 创建表并加载数据第一步 启动HDFS、YARN和
Hive
,启动完毕后创建H...
赞
踩
article
HIVE
的
时间
转换
函数_
hive
时间
转换
...
本文介绍了Hive中用于
时间
转换
和日期操作的函数,包括unix_timestamp()、from_unixtime()、...
赞
踩
article
【超详细】
HIVE
日期
函数(
当前
日期
、
时间
戳转换
、
前一天
日期
等_
hive
当前
时间
...
【代码】【超详细】
HIVE
日期
函数(
当前
日期
、
时间
戳转换
、
前一天
日期
等。_
hive
当前
时间
hive
当前
时间
...
赞
踩
article
目标检测:tp与fp理解_
check
if
detected
bboxes
are
true
pos...
介绍在目标检测中,通常采用mAP指标来表达检测模型的性能表现,而mAP指标的计算具体包含几个步骤,其中重要的一步就是TP...
赞
踩
article
hive
-
查询
元
数据
_获取
hive
元
数据
信息
sql
语句...
本文深入探讨了Hive的元
数据
查询
,包括如何访问元
数据
信息
,理解表结构,字段详情以及
查询
优化等方面的实践技巧,旨在帮助用...
赞
踩
article
Hive
数据库
与表操作_
linux
hive
查询表...
hive
数据库
与表操作_
linux
hive
查询表
linux
hive
查询表 ...
赞
踩
相关标签
hive
sql
hadoop
深度学习
自然语言处理
人工智能
文档
存储
大数据
内存管理
java
json
数据仓库
Access Gateway
Memory Leak