在hive中使用mapreduce的压缩,使用各种设置进行数据压缩的实验

Hive admin 2年前 (2018-11-21) 165次浏览 0个评论 扫描二维码

1、创建一个textfile默认的表

create table page_views(
track_time string,
url string,
session_id string,
referer string,
ip string,
end_user_id string,
city_id string
) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t';

2、设置hive输出是否采用压缩

hive (default)> set hive.exec.compress.output;
hive.exec.compress.output=false
hive (default)> set hive.exec.compress.output=true;
查看压缩格式
hive (default)> set mapreduce.output.fileoutputformat.compress.codec;
mapreduce.output.fileoutputformat.compress.codec=com.hadoop.compression.lzo.LzopCodec

1)设置BZip2Codec压缩格式

hive (default)> set mapreduce.output.fileoutputformat.compress.codec=org.apache.hadoop.io.compress.BZip2Codec
hive (default)> create table page_views_bzip2 as select * from page_views_text;

查看压缩格式:

[hadoop@hadoop000 ~]$ hdfs dfs -du -h /user/hive/warehouse/page_views_gzip/
3.6 M  10.9 M  /user/hive/warehouse/page_views_gzip/000000_0.bz2

2)设置GzipCodec压缩格式

hive (default)> set mapreduce.output.fileoutputformat.compress.codec=org.apache.hadoop.io.compress.GzipCodec;
hive (default)> create table page_views_gzip1 as select * from page_views_text;

查看压缩格式:

[hadoop@hadoop000 hadoop]$ hdfs dfs -du -h /user/hive/warehouse/page_views_gzip1/                     
5.3 M  15.9 M  /user/hive/warehouse/page_views_gzip1/000000_0.gz

3)设置SnappyCodec压缩格式

hive (default)> set mapreduce.output.fileoutputformat.compress.codec=org.apache.hadoop.io.compress.SnappyCodec;
hive (default)> create table page_views_snappy as select * from page_views_text;

查看压缩格式:

[hadoop@hadoop000 hadoop]$ hdfs dfs -du -h /user/hive/warehouse/page_views_gzip1/                     
5.3 M  15.9 M  /user/hive/warehouse/page_views_gzip1/000000_0.gz

codeobj , 版权所有丨如未注明 , 均为原创丨本网站采用BY-NC-SA协议进行授权
转载请注明原文链接:在hive中使用mapreduce的压缩,使用各种设置进行数据压缩的实验
喜欢 (0)
[a37free@163.com]
分享 (0)
发表我的评论
取消评论
表情 贴图 加粗 删除线 居中 斜体 签到

Hi,您需要填写昵称和邮箱!

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址