看到这个图片,很容易就联想到是内存溢出了,但是具体问题出现在哪里呢。
1、检查配置文件
hdfs-site.xml,core-site.xml,yarn-site.xml等配置文件,但是并未发现配置问题。
2、调整参数:
--num-executors 3
--driver-memory 4g
--executor-memory 2g
--execu……继续阅读 »
admin
3年前 (2019-01-20) 2114浏览 0评论
7个赞
特别注意:lzo的压缩比和压缩效率综合起来性价比是比较高的,但是lzo必须有索引才能进行split,以便多个map进行读取实现并行处理,在spark中也可以进行相同的操作,但并不是适合所有场景。比如集群负载已经很高,压缩需要额外的CPU,对性能产生影响
1、安装lzop压缩软件 native library
[root@hadoop000 package]#……继续阅读 »
admin
4年前 (2018-11-05) 1035浏览 0评论
0个赞
1、当前比较常见的离线处理/批处理框架:
hadoop/hive/spark/flink
2、通用的离线处理流程
流程中Batch到DB是可行的,但是在生产中我们通常只需要把最终结果写入关系库中
3、不同的压缩方式带来不一样的数据处理并行度
如上图中的介绍:
1)优点:
1G的文件通过压缩后减少为500M
更少的磁盘IO、更少的磁盘存储空间、更少的网络传输……继续阅读 »
admin
4年前 (2018-11-05) 1187浏览 0评论
0个赞
一、HDFS HA
1.1 HDFS HA架构
HA是为了解决单点问题,通过JournalNode集群共享状态,通过ZKFC 选举active,监控状态,自动备援。
DN会同时向active NN和 standby NN发送心跳。
流程:
当我们在Client使用hdfs进行上传、下载、删除、创建时,
active NN会将操作日志写入JN,standby……继续阅读 »
admin
4年前 (2018-10-27) 1120浏览 0评论
0个赞
一、HDFS-Hadoop分布式文件系统
HDFS 采用Master/Slave的架构来存储数据,这种架构主要由四个部分组成,分别为HDFS Client、NameNode、DataNode和Secondary NameNode。下面我们分别介绍这四个组成部分
1、Client:就是客户端。
1)文件切分。文件上传 HDFS 的时候,Client 将文件……继续阅读 »
admin
4年前 (2018-10-14) 1022浏览 0评论
0个赞
hadoop下载地址
https://archive.cloudera.com/cdh5/cdh/5/hadoop-2.6.0-cdh5.15.0.tar.gz
解压后设置环境变量
一 、core-site.xml
<configuration>
<!--指定namenode的地址-->
<property&……继续阅读 »
admin
4年前 (2018-10-09) 3501浏览 0评论
8个赞
之前一直使用hdfs的命令进行hdfs操作,比如:
hdfs dfs -ls /user/spark/
hdfs dfs -get /user/spark/a.txt /home/spark/a.txt #从HDFS获取数据到本地
hdfs dfs -put -f /home/spark/a.txt /user/spark/a.txt #从本地覆盖式上传
h……继续阅读 »
admin
4年前 (2018-08-17) 2133浏览 0评论
0个赞