Spark SQL外部数据源,轻松搞定文件系统、hive、关系型数据库的读写问题

1、概述   从Spark 1.2版本开始,Spark SQL正式支持外部数据源。它可以通过DataFrame接口对各种数据源进行操作,例如orc,parque…

如何理解SparkSQL中的DataFrame,DataFrame与RDD之间的差异、转换方式

一、定义 1)RDD的定义 在前边的文章中也介绍过了,RDD是弹性分布式数据集: 由一个个Partition组成; 并且我们可以将一个函数作用在每一个Parti…

我司Spark迁移Hive数据到MongoDB生产案例代码–转载

本文章转自若泽大数据,如果您也想转载请注明出处,原文地址: 我司Spark迁移Hive数据到MongoDB生产案例代码 (若泽大数据:www.ruozedata…

解决Spark2.4运行每次都要上传依赖的问题提升运行速度,Neither spark.yarn.jars nor spark.yarn.archive is set

0、配置HADOOP_CONF_DIR [hadoop@hadoop006 conf]$ vim ~/.bash_profile export HADOOP_C…

Spark的提交方式yarn-client与yarn-cluster的区别

一、几种比较常见的运行模式 运行环境 模式 描述 Local 本地模式 常用于本地开发测试,如在eclipse,idea中写程序测试等。本地还分为local单线…

使用mvn的maven-assembly-plugin对项目进行全量打包

只需要在在中添加以下代码即可,编译时就会对项目进行全量打包 <plugin> <groupId>org.apache.maven.plu…

Spark RDD的宽依赖和窄依赖

1、宽依赖和窄依赖说明 由于RDD是粗粒度的操作数据集,每个Transformation操作都会生成一个新的RDD,所以RDD之间就会形成类似流水线的前后依赖关…

Spark中的广播变量(broadcast variable)和累加器(accumulator)

一、广播变量broadcast variable 1、广播变量的意义 如果我们要在分布式计算里面分发大对象,例如:字典,集合,黑白名单等,这个都会由Driver…

几个针对Spark Partition的demo,mapPartitions与foreachPartition减少数据库连接、repartition与coalesce进行重新分区

1、避免对每一条数据进行一次连接 使用foreachPartition针对Partition的操作,避免连接过多造成性能问题 package com.test.…

Spark RDD统计每个域名下,不同的URL对应的访问次数的top3

1、数据来源 1)数据样例 http://www.itpub.net/?username=04209 [2018-12-19 10:14:28] 63 http…

Spark的算子Transformation和Action

一、RDD编程API Spark支持两个类型(算子)操作:Transformation和Action 1、Transformation 主要做的是就是将一个已有…

Spark RDD概念、特性

一、RDD概念以及特性 1、什么是RDD RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽…

Spark在Windows下的环境搭建

由于Spark是用Scala来写的,所以Spark对Scala肯定是原生态支持的,因此这里以Scala为主来介绍Spark环境的搭建,主要包括四个步骤,分别是:…

Spark简介

一、官网介绍 1 什么是Spark 官网地址:http://spark.apache.org/ Apache Spark 是专为大规模数据处理而设计的快速通用的…

使用Scala制造数据,以便使用Spark进行数据分析

1、这里做了三个字段 URL 时间 流量 分别针三个字段做了不同的异常情况 数据内容 https://www.cnblogs.com/AK47Sonic/?us…

Scala隐式转换和偏函数

1、隐式转换 package com.study.bigdata.scala_task import java.io.File import scala.io.…

使用Scala实现WordCount的两种写法

1、这里使用了两种方式 WordCount.scala package com.study.bigdata.scala_task import scala.io…

Scala构造器(主构造器与附属构造器)

object ConstructorApp { def main(args: Array[String]): Unit = { val person = new…

centos 6 与CentOS 7图形界面的关闭与开启

CentOS 6 跑了3个虚拟机的 Centos 6,用来做一个三节点的hadoop,5G 3G 3G结果发现虚拟机特别卡 本本的硬件条件有限,决定关闭图形界面…