2018年11月的内容

Hive

Hive的fileformat文件存储格式测试,查看每一种格式对数据整体大小的影响(千万不要和Compression混淆)

Hive的fileformat文件存储格式测试,查看每一种格式对数据整体大小的影响(千万不要和Compression混淆)
首先声明,以下只是对常见的存储格式进行说明,通常下我们直接采用ORC\PARQUET格式进行存储 一、常见的Hive存储格式,以及默认textfile的多重创建方式 1、Hive 常见的文件存储格式fileformat : SEQUENCEFILE | TEXTFILE -- (Default, depending on hive.defaul……继续阅读 »

admin 2年前 (2018-11-14) 73浏览 0评论 0个赞

Hive

Hive介绍与客户端环境搭建

Hive介绍与客户端环境搭建
一、产生背景 1)MapReduce编程不方便:开发、测试、需求变更 2)满足传统关系型数据库人员的需要 3)像使用sql一样的方式来处理分析大数据 ==> Hive 文件存放在HDFS之上的,那么如果你想使用SQL去处理它,需要一个什么前提? 结构化、文件映射成表格 ==> Schema 元数据信息(metastore) 二、Hive是什么 1、官网:h……继续阅读 »

admin 2年前 (2018-11-09) 94浏览 0评论 0个赞

Hive

Hive与传统的关系型数据库的区别

Hive与传统的关系型数据库的区别
1、数据量 hive存储的数据量比较大,适合海量数据,适合存储轨迹类历史数据,适合用来做离线分析、数据挖掘运算, 事务性较差,实时性较差 rdbms一般数据量相对来说不会太大,适合事务性计算,实时性较好,更加接近上层业务 2、计算引擎 hive的计算引擎是hadoop的mapreduce,存储是hadoop的hdfs文件系统, rdbms的引擎由数据库自己设……继续阅读 »

admin 2年前 (2018-11-08) 85浏览 0评论 0个赞

Hadoop

使用Hadoop自带的wc的mr程序测试LZO的特性,测试index与否的map task个数

使用Hadoop自带的wc的mr程序测试LZO的特性,测试index与否的map task个数
特别注意:lzo的压缩比和压缩效率综合起来性价比是比较高的,但是lzo必须有索引才能进行split,以便多个map进行读取实现并行处理,在spark中也可以进行相同的操作,但并不是适合所有场景。比如集群负载已经很高,压缩需要额外的CPU,对性能产生影响 1、安装lzop压缩软件 native library [root@hadoop000 package]#……继续阅读 »

admin 2年前 (2018-11-05) 39浏览 0评论 0个赞