1. Hadoop压缩数据的优势:
压缩的数据使用较少的带宽。
压缩的数据使用较少的磁盘。
加速数据在磁盘和网络上的传输。
降低成本。
2. Hadoop支持的一般算法:
LZO Gzip Bzip2 LZ4 Snappy
各个算法对比如下:
3. 压缩算法效率比较
算法对比总结:
gzip是普通的压缩器,bzip压缩性能好于gzip但速度慢,LZO由很多小块组成。LZO和Snappy的压缩速度好但压缩效率低,解压是gzip的两倍。Snappy解压缩好于LZO
4. MapReduce设置压缩算法的核心代码
/设置reduce端输出进行压缩
FileOutputFormat.setCompressOutput(job, true);
//设置reducer端压缩的类型
FileOutputFormat.setOutputCompressorClass(job, GzipCodec.class);
文章转载自互联网IT信息,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。