HDFS异常(调优),Spark提交任务出现OOM:unable to create new native thread

看到这个图片,很容易就联想到是内存溢出了,但是具体问题出现在哪里呢。 1、检查配置文件 hdfs-site.xml,core-site.xml,yarn-sit…

Spark Streaming的maven配置pom.xml

不多说,直接查询相关的内容 https://mvnrepository.com/search?q=spark 我们可以看到很多常见的东西,spark-core,…

Spark Streaming介绍以及简单使用

一、Spark Streaming介绍 Spark Streaming is an extension of the core Spark API that e…

SparkSQL自定义DataSource外部数据源

一、想要自定义就需要先知道别人是怎么写DataSource代码的 我们能在源码中找到JDBCrelationprovider可以看到createRelation…

Spark SQL外部数据源,轻松搞定文件系统、hive、关系型数据库的读写问题

1、概述   从Spark 1.2版本开始,Spark SQL正式支持外部数据源。它可以通过DataFrame接口对各种数据源进行操作,例如orc,parque…

如何理解SparkSQL中的DataFrame,DataFrame与RDD之间的差异、转换方式

一、定义 1)RDD的定义 在前边的文章中也介绍过了,RDD是弹性分布式数据集: 由一个个Partition组成; 并且我们可以将一个函数作用在每一个Parti…

我司Spark迁移Hive数据到MongoDB生产案例代码–转载

本文章转自若泽大数据,如果您也想转载请注明出处,原文地址: 我司Spark迁移Hive数据到MongoDB生产案例代码 (若泽大数据:www.ruozedata…

解决Spark2.4运行每次都要上传依赖的问题提升运行速度,Neither spark.yarn.jars nor spark.yarn.archive is set

0、配置HADOOP_CONF_DIR [hadoop@hadoop006 conf]$ vim ~/.bash_profile export HADOOP_C…

Spark的提交方式yarn-client与yarn-cluster的区别

一、几种比较常见的运行模式 运行环境 模式 描述 Local 本地模式 常用于本地开发测试,如在eclipse,idea中写程序测试等。本地还分为local单线…

Spark RDD的宽依赖和窄依赖

1、宽依赖和窄依赖说明 由于RDD是粗粒度的操作数据集,每个Transformation操作都会生成一个新的RDD,所以RDD之间就会形成类似流水线的前后依赖关…

Spark中的广播变量(broadcast variable)和累加器(accumulator)

一、广播变量broadcast variable 1、广播变量的意义 如果我们要在分布式计算里面分发大对象,例如:字典,集合,黑白名单等,这个都会由Driver…

几个针对Spark Partition的demo,mapPartitions与foreachPartition减少数据库连接、repartition与coalesce进行重新分区

1、避免对每一条数据进行一次连接 使用foreachPartition针对Partition的操作,避免连接过多造成性能问题 package com.test.…

Spark RDD统计每个域名下,不同的URL对应的访问次数的top3

1、数据来源 1)数据样例 http://www.itpub.net/?username=04209 [2018-12-19 10:14:28] 63 http…

Spark的算子Transformation和Action

一、RDD编程API Spark支持两个类型(算子)操作:Transformation和Action 1、Transformation 主要做的是就是将一个已有…

Spark RDD概念、特性

一、RDD概念以及特性 1、什么是RDD RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽…

Spark在Windows下的环境搭建

由于Spark是用Scala来写的,所以Spark对Scala肯定是原生态支持的,因此这里以Scala为主来介绍Spark环境的搭建,主要包括四个步骤,分别是:…

Spark简介

一、官网介绍 1 什么是Spark 官网地址:http://spark.apache.org/ Apache Spark 是专为大规模数据处理而设计的快速通用的…

eclipse创建maven管理Spark的scala以及eclipse的Maven配置

说明,由于spark是用scala写的。因此,不管是在看源码还是在写spark有关的代码的时候,都最好是用scala。由于我个人以前是纯粹的Pythoner,一…

CDH5(5.15.0)中修改spark的yarn.nodemanager.resource.memory-mb和yarn.scheduler.maximum-allocation-mb配置

CDH配置文件修改: 1、spark的yarn.nodemanager.resource.memory-mb和yarn.scheduler.maximum-al…

CDH5(5.15.0)升级jdk1.7到1.8,并且将spark1.6升级到spark2.3

严格来说不是将spark1.6升级到spark2.3,而是安装一个新的spark2.3 一、JDK1.7升级到JDK1.8 由于之前CDH中安装了spark1.…