大数据—Hadoop（十四）_ MapReduce_07、压缩_mapreduce中map输出压缩文件

作者：在线问答5 | 2024-06-20 06:25:48

踩

mapreduce中map输出压缩文件

文章目录

1、概述
2、MR支持的压缩编码
3、压缩算法比较
4、压缩方式选择
5、压缩参数配置
- 5.1 算法
- 5.2 启动压缩配置方式
6、压缩实操案例
- 6.1 Map输出端采用压缩
- 6.2 Reduce输出端采用压缩

1、概述

1.1 好处

以减少磁盘IO
例如：在map阶段进行压缩后放入磁盘，则Reduce端拉取的内容就会变少，速度变快
减少磁盘存储空间

1.2 坏处

增加CPU开销
压缩和解压缩都需要CPU进行计算

1.3 压缩方式选择主要看目前的任务类型

运算密集型任务
- 少用压缩
IO密集型任务
- 多用压缩
- 只压缩一两次后经常用于网络传输的任务

2、MR支持的压缩编码

压缩格式	Hadoop自带？	算法	文件扩展名	是否可切片	换成压缩格式后，原来的程序是否需要修改
DEFLATE	是	DEFLATE	.deflate	否	和文本处理一样，不需要修改
Gzip	是	DEFLATE	.gz	否	和文本处理一样，不需要修改
bzip2	是	bzip2	.bz2	是	和文本处理一样，不需要修改
LZO	否	LZO	.lzo	是	需要建索引，还需要指定输入格式
Snappy	是	Snappy	.snappy	否	和文本处理一样，不需要修改

解读1：是否是Hadoop自带
3.X后自带snappy，不需要额外安装

解读2：是否可切片
如果不支持切片，只能给一个MapTask处理
所以数据庞大，重点考虑bzip2和LZO

3、压缩算法比较

压缩算法	原始文件大小	压缩文件大小	压缩速度	解压速度
gzip	8.3GB	1.8GB	17.5MB/s	58MB/s
bzip2	8.3GB	1.1GB	2.4MB/s	9.5MB/s
LZO	8.3GB	2.9GB	49.3MB/s	74.6MB/s
Snappy	8.3GB	未知	250MB/s	500MB/s

4、压缩方式选择

4.1 主要考虑三点

压缩和解压缩的速度
压缩率
压缩后是否支持切片

4.2 各种压缩方式优缺点

压缩方式	优点	缺点
Gzip	压缩率比较高	不支持Split；压缩/解压速度一般
Bzip2	压缩率高；支持Split	压缩/解压速度慢
LZO	压缩/解压速度比较快；支持Split	压缩率一般；想支持切片需要额外创建索引
Snappy	压缩和解压缩速度快	不支持Split；压缩率一般

4.3 压缩位置选择

位置	重点考虑
Map输入	a、是否自带 b、是否大于块大小（大：支持切片——LZO、Bzip2；小：速度快——LZO、Snappy）
Map输出	速度快——LZO、Snappy
Reduce输出	a、永久保存（压缩率——Bzip2、Gzip）b、如果作为下一个Map的输入，则考虑上方Map输入的问题（是否自带、大小、切片）

5、压缩参数配置

5.1 算法

压缩格式	对应的编码/解码器（类的全类名）
DEFLATE	org.apache.hadoop.io.compress.DefaultCodec
gzip	org.apache.hadoop.io.compress.GzipCodec
bzip2	org.apache.hadoop.io.compress.BZip2Codec
LZO	com.hadoop.compression.lzo.LzopCodec
Snappy	org.apache.hadoop.io.compress.SnappyCodec

5.2 启动压缩配置方式

位置	对应的编码/解码器（类的全类名）	默认值和配置方式
Map输入	io.compression.codecs（在core-site.xml中配置）	默认为空，如果后续需要添加非Hadoop自带的压缩方式，才需要配置（例如：LZO）
Map输出	mapreduce.map.output.compress（在mapred-site.xml中配置）	默认false，开启压缩需要设置成true
Map输出	mapreduce.map.output.compress.codec（在mapred-site.xml中配置）	默认org.apache.hadoop.io.compress.DefaultCodec，如果需要设置成LZO或者是Snappy编解码器，需要在此设置
reducer输出	mapreduce.output.fileoutputformat.compress（在mapred-site.xml中配置）	默认false，开启压缩需要设置成true
reducer输出	mapreduce.output.fileoutputformat.compress.codec（在mapred-site.xml中配置）	默认org.apache.hadoop.io.compress.DefaultCodec，如果需要设置成gzip或者是bzip2编解码器，需要在此设置

6、压缩实操案例

6.1 Map输出端采用压缩

// 开启map端输出压缩
conf.setBoolean("mapreduce.map.output.compress", true);

// 设置map端输出压缩方式
conf.setClass("mapreduce.map.output.compress.codec", BZip2Codec.class,CompressionCodec.class);
1
2
3
4
5

如果只配置了Map输出端，只会影响任务速度，不会影响最终输出文件格式

如果改成Snappy压缩方式，在window环境测试，会报本地Snappy不存在，或者版本不支持。因为Snappy需要运行在centos7.0以上的系统和hadoop3.X版本

java.lang.RuntimeException: native snappy library not available: this version of libhadoop was built without snappy support. 
1

6.2 Reduce输出端采用压缩

// 设置reduce端输出压缩开启
FileOutputFormat.setCompressOutput(job, true);

// 设置压缩的方式
FileOutputFormat.setOutputCompressorClass(job, BZip2Codec.class); 
//FileOutputFormat.setOutputCompressorClass(job, GzipCodec.class); 
//FileOutputFormat.setOutputCompressorClass(job, DefaultCodec.class); 
1
2
3
4
5
6
7

会影响最终输出文件，文件后缀分别是.bz2、.gz、.deflate

声明：本文内容由网友自发贡献，转载请注明出处：【wpsshop】