搜索
查看
编辑修改
首页
UNITY
NODEJS
PYTHON
AI
GIT
PHP
GO
CEF3
JAVA
HTML
CSS
搜索
煮酒与君饮
这个屌丝很懒,什么也没留下!
关注作者
热门标签
jquery
HTML
CSS
PHP
ASP
PYTHON
GO
AI
C
C++
C#
PHOTOSHOP
UNITY
iOS
android
vue
xml
爬虫
SEO
LINUX
WINDOWS
JAVA
MFC
CEF3
CAD
NODEJS
GIT
Pyppeteer
article
热门文章
1
python项目开发——简易图书管理系统_简单通用的图书系统后端管理模板python
2
【神经网络+数学】——(4)神经网络求解二元偏微分问题(二阶偏微分)_神经网络解偏微分方程的代码
3
Dynamic Time Warping 动态时间规整算法
4
我是这么绕过苹果ID锁的_么绕过苹果5s的隐藏id回主页面
5
华中科技大学计算机学院领导,冯丹:华中科技大学计算机学院院长
6
ElasticSearch 获取文档的插入时的时间_怎么查看es插入数据时间
7
软件杯 深度学习YOLOv5车辆颜色识别检测 - python opencv_yolo在执行目标检测时进行颜色检测
8
根据excel模板导出excel表格 返回流给前端_后端生成excel文件,以流的形式返回给前端
9
掌握Git:从入门到精通_git提代码命令
10
转播小助手开启微信语音多群同步直播转播之路_微信小助手多群转播
当前位置:
article
> 正文
Hadoop(二)答辩问题+答案_旅游酒店数据分析项目实战(hadoop)答辩
作者:煮酒与君饮 | 2024-07-26 17:22:49
赞
踩
旅游酒店数据分析项目实战(hadoop)答辩
------------------------------------------------------------------------------------
--hadoop 常见问题:
1.压缩的几种方式?怎么设置的?
default gzip bzip2 lz0 snappy
使用怎么设置?
map端设置 reduce端
即使MapReduce应用使用非压缩的数据来读取和写入,我们也可以受益于压缩map阶段的中间输出。因为map作业的输出会被写入磁盘并通过网络传输到reducer节点,所以若使用LZO之类的快速压缩,能得到更好的性能,因为传输的数据量大大减少了。
Configuration conf = new Configuration();
conf.setBoolean("mapred.compress.map.output", true);
conf.setClass("mapred.map.output.compression.codec",GzipCodec.class, CompressionCodec.class);
使用压缩有什么好处?
Reduce输出压缩包到hdfs
打开Reduce输出压缩设置
FileOutputFormat.setCompressOutput(job, true);
设置使用的压缩算法
FileOutputFormat.setOutputCompressorClass(job, GzipCodec.class);
2.分布式缓存(加载字典)? 怎么设置(过时方法和不过时方法)?
3.hadoop 优化? 配置,参数,代码,数据(大量小文件合并大文件)
4.hadoop 什么是数据倾斜? 怎么解决?
某一个task运行时间非常长。拖累整个程序运行时间
5.hadoop1.0和hadoop2.0有什么区别?
6.yarn的工作流程?
7.什么是 mapreduce?
combiner 是什么?
partition
merge
8.job和task 的区别?
job
task:maptask 、reducetask
9.什么是shuffle?shuffle过程?
shuffle 的切片过程? 块 片 maptask之间的关系?
map端溢写 ?reduce端溢写?
setup?
cleanup?
10.map和reduce 端shuffle 分别发什么什么?
11.hadoop的调度器有几种?
FIFO(先进先出) 计算能力调度器 公平调度器
12.MapReduce 自带辅助类有哪些?
GenericOptionsParser ToolRunner Tool
13.MapReduce 数据类型有哪些?
14.分布式缓存 过时的写法是?现在的写法?
15.多文件输出类是? MultipleOutputs
16.Hadoop内置的输出文件格式有:
1)FileOutputFormat<K,V> 常用的父类;
2)TextOutputFormat<K,V> 默认输出字符串输出格式;
3)SequenceFileOutputFormat<K,V> 序列化文件输出;
4)MultipleOutputs<K,V> 可以把输出数据输送到不同的目录;
5) NullOutputFormat<K,V> 把输出输出到/dev/null中,即不输出任何数据,这个应用场景是在MR中进行了逻辑处理,同时输出文件已经在MR中进行了输出,而不需要在输出的情况;
6)LazyOutputFormat<K,V> 只有在调用write方法是才会产生文件,这样的话,如果没有调用write就不会产生空文件
17.MapReduce 分区使用的场景?
数据归类(分类)、数据清洗、数据分析前期处理
18.join有几种? 实现思想分别是什么?
mapjoin :分布式缓存
reducejoin:数据打标记
19.自定义数据类型实现那个接口? WritableComparable 或者 Writable
--Writable
write() 是把每个对象序列化到输出流。
readFields()是把输入流字节反序列化。
--WritableComparable
Java值对象的比较:重写 toString()、hashCode()、equals()方法
20.自定义分区实现那个接口? Partitioner
怎么设置?
21.自定义combiner继承那个类? Reducer
怎么设置?
声明:
本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:
https://www.wpsshop.cn/w/煮酒与君饮/article/detail/886409
推荐阅读
article
ChatGPT
在大气科学
领域建模
、
数据
分析
、
可视化
与资源
评估
中的应用及论文写作_如何利用chatgp...
将GPT与Python结合应用于遥感降水数据处理
、
ERA5大气再
分析
数据的统计
分析
、
干旱监测及风能和太阳能资源
评估
等大气...
赞
踩
article
AI
大模型智能大气科学探索之:
ChatGPT
在大气科学领域建模、
数据
分析
、
可视化
与资源
评估
中的高效应...
内容覆盖使用GPT处理
数据
、生成论文摘要、文献综述、技术方法
分析
等实战案例,能够将
AI
技术广泛应用于科研工作。特别关注将...
赞
踩
article
大
数据
基础知识-
Hadoop
、
HBase
、
Hive
一篇搞定_
hive
hadoop
...
相应的,
数据
库由于规模较小,因此可以支持的
数据
规模较小,一般单张表中能存储百万条
数据
(最新版的MySQL经过优化,单表中...
赞
踩
article
Hadoop、
HDFS
、
Hive
、Hbase之间的关系_
hadoop
hdfs
hbase
hive
...
Hbase:是一款基于
HDFS
的数据库,是一种NoSQL数据库,主要适用于海量明细数据(十亿、百亿)的随机实时查询,如日...
赞
踩
article
Hadoop
+
hbase
+
hive
环境
搭建_基于
hadoop
部署
hive
和
hbase
...
Hadoop
是一个开发
和
运行处理大规模数据的平台,实现在多台计算机组成的集群中对海量数据进行分布式计算。
hadoop
框架...
赞
踩
article
Hadoop
、
HDFS
、
Hive
、Hbase区别及联系_
hadoop
hbase
hive
hdfs
...
Hadoop
、
HDFS
、
Hive
和HBase是大数据生态系统中的关键组件,它们都是由Apache软件基金会管理的开源项目...
赞
踩
article
Hadoop
、
HDFS
、MR 、
HIVE
等通俗
理解
_
hive
mr
是
什么...
目录
Hadoop
HIVE
HBASE KAFKA FLUME STORM SCALA SPARK
Hadoop
HD...
赞
踩
article
Python
数据分析
(
超详细版)_
python
数据分析
...
DataFrame 是一个表格型的数据结构,它含有一组有序的列,每列可以是不同的值类型
(
数值、字符串、布尔型值)。如果D...
赞
踩
article
Python
数据分析
:
数据分析
中
的
常见
统计
方法解析_对提取
的
数据包进行
统计
的
算法...
本文介绍了在
Python
中
进行
数据分析
的
关键步骤,包括描述性
统计
(如平均值、
中
位数、众数等)、假设检验(如t-检验、卡方...
赞
踩
article
Spark整合
Hive
报错:Unable
to
instantiate
org.
apache
.had...
报错截图:整合
Hive
过程:
hive
版本:
hive
-1.1.0-cdh5.14.0 spark版本:spark-...
赞
踩
article
运行
spark
程序时报错org.
apache
.
hadoop
.
security
.AccessContr...
1、问题:运行
spark
程序时报一下错误2、解决方案关闭权限检测,在cloudera Manager中去掉dfs.per...
赞
踩
article
大
数据
技术基础笔记
2
大
数据
处理架构
Hadoop
_
lora
hadoop
...
文章目录
2
.1 概述
2
.1 概述•
Hadoop
是Apache软件基金会旗下的一个开源分布式计算平台,为用户提供了系统底...
赞
踩
article
【Hadoop】
DataNode
数据
盘进行
磁盘
DiskBalancer
_
hdfs
diskbala...
DiskBalancer
是一个命令行工具,可在
DataNode
的所有
磁盘
上均匀分发
数据
。 此工具对给定的
DataNode
...
赞
踩
article
人工智能
-概述
:
数据分析
---->
人工智能
【
机器
学习
----->
深度
学习
】_《
数据分析
与
人工智能
》 ...
一、
人工智能
-概述
学习
目标了解
人工智能
在现实生活中的应用知道
人工智能
发展必备三要素知道
人工智能
和
机器
学习
、
深度
学习
三者之...
赞
踩
article
AI
交互及
爬虫
【
数据分析
】_
ai
agent
爬虫
...
个人主页:在线OJ的阿川大佬的支持和鼓励,将是我成长路上最大的动力阿川水平有限,如有错误,欢迎大佬指正在这个时代
AI
...
赞
踩
article
第七章 :
Hadoop
+
Zookeeper
3节点高可用集群搭建和原理解释_
you
have
sel...
一,原理先说一下
Zookeeper
在
Hadoop
集群的作用,以前我们学习
Hadoop
伪分布式的时候没有用到Zookeep...
赞
踩
article
Apache
Hadoop
3
.
x
版本的安装和
配置
_
hadoop
3
.
x
版本
yarn
官方
配置
...
0. 相关文章链接大数据基础知识点 文章汇总1._
hadoop
3
.
x
版本
yarn
官方
配置
hadoop
3
.
x
版本
yarn
官...
赞
踩
article
【
hadoop
】
hbase
的
安装
部署
以及相关操作(图文详解)_
hbase
安装
(1)_
hbase
的
安装
...
因为HBase依赖于Hadoop
的
分布式文件系统HDFS和资源管理框架YARN,而且HBase
的
各个版本都会对Hadoo...
赞
踩
article
【运维与安装】
hadoop
3.3
.1 高可用 +
simple
认证 +队列设置_
hadoop
.
zk
...
本文通过配置
hadoop
相关文件实现HDFS、YARN的集群以及高可用。其他例如:队列配置、
simple
安全认证等见我的...
赞
踩
article
【
Hadoop
】
HA
高
可用
搭建
保姆级教程(大二学长
的
万字笔记)
_
hadoop
的
高
可用
搭建
_
hadoo...
注意要将 zoo
_
sample.cfg 文件改名为 zoo.cfg,这个文件在 zookeeper 目录
的
conf 目...
赞
踩
相关标签
人工智能
chatgpt
数据分析
python
hadoop
大数据
分布式
hbase
hive
hdfs
入门理解
开发语言
数据挖掘
分类
spark整合hive报错
spark整合hive过程
spark整合hive详解