2018年12月的内容

Spark

Spark SQL外部数据源,轻松搞定文件系统、hive、关系型数据库的读写问题

Spark SQL外部数据源,轻松搞定文件系统、hive、关系型数据库的读写问题
1、概述   从Spark 1.2版本开始,Spark SQL正式支持外部数据源。它可以通过DataFrame接口对各种数据源进行操作,例如orc,parquet,json,hive,jdbc,avro等。它既可以通过转换成RDD进行操作,也可以被创建为一个临时视图。将外部数据读入后创建为一个临时视图,可以用sql的方式进行查询处理。这个特性可以很方便让我们……继续阅读 »

admin 2年前 (2018-12-31) 38浏览 0评论 0个赞

Spark

如何理解SparkSQL中的DataFrame,DataFrame与RDD之间的差异、转换方式

如何理解SparkSQL中的DataFrame,DataFrame与RDD之间的差异、转换方式
一、定义 1)RDD的定义 在前边的文章中也介绍过了,RDD是弹性分布式数据集: 由一个个Partition组成; 并且我们可以将一个函数作用在每一个Partition上; RDD之间的依赖关系,血缘关系; 每个key_value形式Partition,都可以作用一个partitioner分片函数按照key重新分区; 一个列表,存储存取每个Partition……继续阅读 »

admin 2年前 (2018-12-29) 40浏览 0评论 0个赞

MongoDB

我司Spark迁移Hive数据到MongoDB生产案例代码–转载

我司Spark迁移Hive数据到MongoDB生产案例代码–转载
本文章转自若泽大数据,如果您也想转载请注明出处,原文地址: 我司Spark迁移Hive数据到MongoDB生产案例代码 (若泽大数据:www.ruozedata.com ,系统化讲解大数据知识,专注于生产案例的讲解,讲师全部为一线在职牛人,不定期学员分享生产案例,所有人一起进步) Hive emp表数据如下 hive (soul)> select *……继续阅读 »

admin 2年前 (2018-12-28) 129浏览 0评论 0个赞

Spark

Spark的提交方式yarn-client与yarn-cluster的区别

Spark的提交方式yarn-client与yarn-cluster的区别
一、几种比较常见的运行模式 运行环境 模式 描述 Local 本地模式 常用于本地开发测试,如在eclipse,idea中写程序测试等。本地还分为local单线程和local-cluster多线程 Standalone 集群模式 Spark自带的一个资源调度框架,支持完全分布式。存在的Master单点故障可由ZooKeeper来实现HA ……继续阅读 »

admin 2年前 (2018-12-25) 65浏览 0评论 0个赞

Spark

Spark RDD的宽依赖和窄依赖

Spark RDD的宽依赖和窄依赖
1、宽依赖和窄依赖说明 由于RDD是粗粒度的操作数据集,每个Transformation操作都会生成一个新的RDD,所以RDD之间就会形成类似流水线的前后依赖关系;RDD和它依赖的父RDD(s)的关系有两种不同的类型,即窄依赖(narrow dependency)和宽依赖(wide dependency)。如图所示显示了RDD之间的依赖关系。 从图中可知:……继续阅读 »

admin 2年前 (2018-12-20) 63浏览 0评论 0个赞

Spark

Spark中的广播变量(broadcast variable)和累加器(accumulator)

Spark中的广播变量(broadcast variable)和累加器(accumulator)
一、广播变量broadcast variable 1、广播变量的意义 如果我们要在分布式计算里面分发大对象,例如:字典,集合,黑白名单等,这个都会由Driver端进行分发,一般来讲,如果这个变量不是广播变量,那么每个task就会分发一份,这在task数目十分多的情况下Driver的带宽会成为系统的瓶颈,而且会大量消耗task服务器上的资源,如果将这个变量声明……继续阅读 »

admin 2年前 (2018-12-20) 66浏览 0评论 0个赞