python环境管理,使用pyenv virtualenv进行python版本和文件夹层面的隔离

一、常见的python环境管理模块 1、virtualenv #安装 hadoop000:test wn$ pip install virtualenv #使用…

HDFS异常(调优),Spark提交任务出现OOM:unable to create new native thread

看到这个图片,很容易就联想到是内存溢出了,但是具体问题出现在哪里呢。 1、检查配置文件 hdfs-site.xml,core-site.xml,yarn-sit…

Spark Streaming的maven配置pom.xml

不多说,直接查询相关的内容 https://mvnrepository.com/search?q=spark 我们可以看到很多常见的东西,spark-core,…

Spark Streaming介绍以及简单使用

一、Spark Streaming介绍 Spark Streaming is an extension of the core Spark API that e…

Hive自定义UDF、UDAF、UDTF开发,临时注册以及注册到Metastore中

User-defined function用户自定义方法 UDF:一进一出 UDAF:多进一出 UDTF:一进多出 1、自定义一个最简单的UDF pom文件,使…

Hive MetaStore常用的元数据在Mysql中对应的表

1、Hive中databases的信息-》DBS 字段关联,以及表 TBL_ID(TBLS)-> SD_ID(SDS)-> CD_ID(CDS)-&…

SparkSQL自定义DataSource外部数据源

一、想要自定义就需要先知道别人是怎么写DataSource代码的 我们能在源码中找到JDBCrelationprovider可以看到createRelation…