Hadoop-数据压缩

Hadoop

template

发布日期: 2023-04-21

文章字数: 243

阅读时长: 1 分

阅读次数:

原则

MapReduce 支持压缩，通过压缩算法对 mapper 或者 reducer 的最终数据结果进行压缩

原则:

配置文档:

mapreduce.map.output.compress=false
mapreduce.map.output.compress.codec=org.apache.hadoop.io.compress.DefaultCodec

在代码中进行配置:

conf.setBoolean(Job.MAP_OUTPUT_COMPRESS, true);
conf.setClass(Job.MAP_OUTPUT_COMPRESS_CODEC, GzipCodec.class, CompressionCodec.class);

配置文档:

mapreduce.output.fileoutputformat.compress=false
mapreduce.output.fileoutputformat.compress.codec=org.apache.hadoop.io.compress.DefaultCodec
mapreduce.output.fileoutputformat.compress.type=RECORD

在代码中进行配置:

Job job = Job.getInstance(conf);
FileOutputFormat.setCompressOutput(job, true);
FileOutputFormat.setOutputCompressorClass(job, GzipCodec.class);

支持的压缩类型

不建议使用配置文档的方式，不灵活，可以使用代码进行配置
配置文件官方文档

钱不寒

https://jxch.github.io/2023/04/21/architect/hadoop/hadoop-shu-ju-ya-suo/

本博客所有文章除特別声明外，均采用 CC BY 4.0 许可协议。转载请注明来源钱不寒 !

Hadoop

2023-04-21 IT学习笔记

Hadoop

2023-04-21 template

Hadoop