使用sqoop将MySQL数据import到HDFS,使用snappy压缩

1、建表 CREATE TABLE `page_views` ( `track_time` varchar(50) DEFAULT NULL, `url` va…

SQOOP安装以及基本操作

1、SQOOP安装 1)下载SQOOP http://archive.cloudera.com/cdh5/cdh/5/sqoop-1.4.6-cdh5.7.0.…

在hive中使用mapreduce的压缩,使用各种设置进行数据压缩的实验

1、创建一个textfile默认的表 create table page_views( track_time string, url string, sessi…

Scala fastjosn字符串转json异常syntax error, expect {, actual [, pos 0 at

数据转换的是件比较费事的事情,数据之间相互解析和转换,只想说费时间,今天跟大家分享下,json格式转换成javaBean类报如下错误: syntax error…

使用hiveserver2进行hive操作

1、Hiveserver2的使用 HiveServer2 (HS2) is a service that enables clients to execute …

Hive的fileformat文件存储格式测试,查看每一种格式对数据整体大小的影响(千万不要和Compression混淆)

首先声明,以下只是对常见的存储格式进行说明,通常下我们直接采用ORC\PARQUET格式进行存储 一、常见的Hive存储格式,以及默认textfile的多重创建…

Hive介绍与客户端环境搭建

一、产生背景 1)MapReduce编程不方便:开发、测试、需求变更 2)满足传统关系型数据库人员的需要 3)像使用sql一样的方式来处理分析大数据 ==> H…

Hive与传统的关系型数据库的区别

1、数据量 hive存储的数据量比较大,适合海量数据,适合存储轨迹类历史数据,适合用来做离线分析、数据挖掘运算, 事务性较差,实时性较差 rdbms一般数据量相…

使用java或者scala进行hdfs访问以及python访问hdfs的使用对比

1、python的hdfs3进行hdfs的操作 文章: python使用hdfs3模块对hdfs进行操作 2、idea配置source root和junit使用…

使用Hadoop自带的wc的mr程序测试LZO的特性,测试index与否的map task个数

特别注意:lzo的压缩比和压缩效率综合起来性价比是比较高的,但是lzo必须有索引才能进行split,以便多个map进行读取实现并行处理,在spark中也可以进行…

【压缩方式对比】正确选择大数据处理过程中的压缩方式

1、当前比较常见的离线处理/批处理框架: hadoop/hive/spark/flink 2、通用的离线处理流程 流程中Batch到DB是可行的,但是在生产中我…

hadoop-2.6.0编译详细步骤,通用于其他版本

一、环境准备 1、JDK安装部署 详细安装地址:[JDK安装部署](https://www.codeobj.com/?p=302) 2、Maven安装 详细安装…

【完全分布式Hadoop】(九)高可用hadoop集群安装(HDFS HA,Yarn HA)

一 完全分布式hadoop集群 Hadoop官方地址:https://hadoop.apache.org/ 1 准备3台客户机 1.1防火墙,静态IP,主机名 …