使用Hadoop自带的wc的mr程序测试LZO的特性,测试index与否的map task个数

使用Hadoop自带的wc的mr程序测试LZO的特性,测试index与否的map task个数
特别注意:lzo的压缩比和压缩效率综合起来性价比是比较高的,但是lzo必须有索引才能进行split,以便多个map进行读取实现并行处理,在spark中也可以进行相同的操作,但并不是适合所有场景。比如集群负载已经很高,压缩需要额外的CPU,对性能产生影响 1、安装lzop压缩软件 native library [root@hadoop000 package]#……继续阅读 »

admin 2年前 (2018-11-05) 115浏览 0评论 0个赞

【压缩方式对比】正确选择大数据处理过程中的压缩方式

【压缩方式对比】正确选择大数据处理过程中的压缩方式
1、当前比较常见的离线处理/批处理框架: hadoop/hive/spark/flink 2、通用的离线处理流程 流程中Batch到DB是可行的,但是在生产中我们通常只需要把最终结果写入关系库中 3、不同的压缩方式带来不一样的数据处理并行度 如上图中的介绍: 1)优点: 1G的文件通过压缩后减少为500M 更少的磁盘IO、更少的磁盘存储空间、更少的网络传输……继续阅读 »

admin 2年前 (2018-11-05) 139浏览 0评论 0个赞

【完全分布式Hadoop】(七)HDFS高可用、Yarn高可用介绍以及集群规划

【完全分布式Hadoop】(七)HDFS高可用、Yarn高可用介绍以及集群规划
一、HDFS HA 1.1 HDFS HA架构 HA是为了解决单点问题,通过JournalNode集群共享状态,通过ZKFC 选举active,监控状态,自动备援。 DN会同时向active NN和 standby NN发送心跳。 流程: 当我们在Client使用hdfs进行上传、下载、删除、创建时, active NN会将操作日志写入JN,standby……继续阅读 »

admin 2年前 (2018-10-27) 126浏览 0评论 0个赞

【完全分布式Hadoop】(二)HDFS、YARN概念介绍

【完全分布式Hadoop】(二)HDFS、YARN概念介绍
一、HDFS-Hadoop分布式文件系统 HDFS 采用Master/Slave的架构来存储数据,这种架构主要由四个部分组成,分别为HDFS Client、NameNode、DataNode和Secondary NameNode。下面我们分别介绍这四个组成部分 1、Client:就是客户端。 1)文件切分。文件上传 HDFS 的时候,Client 将文件……继续阅读 »

admin 2年前 (2018-10-14) 95浏览 0评论 0个赞