Spark Streaming的maven配置pom.xml

Spark Streaming的maven配置pom.xml
不多说,直接查询相关的内容 https://mvnrepository.com/search?q=spark 我们可以看到很多常见的东西,spark-core,spark-sql,spark-streaming等等 点开这些链接进入到版本列表界面,选择自己需要的配置 spark-core spark-streaming 这里就不一一说明了,下面我直接列……继续阅读 »

admin 2年前 (2019-01-12) 264浏览 0评论 0个赞

Spark SQL外部数据源,轻松搞定文件系统、hive、关系型数据库的读写问题

Spark SQL外部数据源,轻松搞定文件系统、hive、关系型数据库的读写问题
1、概述   从Spark 1.2版本开始,Spark SQL正式支持外部数据源。它可以通过DataFrame接口对各种数据源进行操作,例如orc,parquet,json,hive,jdbc,avro等。它既可以通过转换成RDD进行操作,也可以被创建为一个临时视图。将外部数据读入后创建为一个临时视图,可以用sql的方式进行查询处理。这个特性可以很方便让我们……继续阅读 »

admin 2年前 (2018-12-31) 129浏览 0评论 0个赞

如何理解SparkSQL中的DataFrame,DataFrame与RDD之间的差异、转换方式

如何理解SparkSQL中的DataFrame,DataFrame与RDD之间的差异、转换方式
一、定义 1)RDD的定义 在前边的文章中也介绍过了,RDD是弹性分布式数据集: 由一个个Partition组成; 并且我们可以将一个函数作用在每一个Partition上; RDD之间的依赖关系,血缘关系; 每个key_value形式Partition,都可以作用一个partitioner分片函数按照key重新分区; 一个列表,存储存取每个Partition……继续阅读 »

admin 2年前 (2018-12-29) 106浏览 0评论 0个赞

我司Spark迁移Hive数据到MongoDB生产案例代码–转载

我司Spark迁移Hive数据到MongoDB生产案例代码–转载
本文章转自若泽大数据,如果您也想转载请注明出处,原文地址: 我司Spark迁移Hive数据到MongoDB生产案例代码 (若泽大数据:www.ruozedata.com ,系统化讲解大数据知识,专注于生产案例的讲解,讲师全部为一线在职牛人,不定期学员分享生产案例,所有人一起进步) Hive emp表数据如下 hive (soul)> select *……继续阅读 »

admin 2年前 (2018-12-28) 306浏览 0评论 0个赞

Spark的提交方式yarn-client与yarn-cluster的区别

Spark的提交方式yarn-client与yarn-cluster的区别
一、几种比较常见的运行模式 运行环境 模式 描述 Local 本地模式 常用于本地开发测试,如在eclipse,idea中写程序测试等。本地还分为local单线程和local-cluster多线程 Standalone 集群模式 Spark自带的一个资源调度框架,支持完全分布式。存在的Master单点故障可由ZooKeeper来实现HA ……继续阅读 »

admin 2年前 (2018-12-25) 164浏览 0评论 0个赞

Spark RDD的宽依赖和窄依赖

Spark RDD的宽依赖和窄依赖
1、宽依赖和窄依赖说明 由于RDD是粗粒度的操作数据集,每个Transformation操作都会生成一个新的RDD,所以RDD之间就会形成类似流水线的前后依赖关系;RDD和它依赖的父RDD(s)的关系有两种不同的类型,即窄依赖(narrow dependency)和宽依赖(wide dependency)。如图所示显示了RDD之间的依赖关系。 从图中可知:……继续阅读 »

admin 2年前 (2018-12-20) 159浏览 0评论 0个赞