Apache Spark基础及架构

admin 程序员资讯

2023-05-27 0 797

音频文本：

国际版申领形式：

电视广告

整套大统计数据数据CTO完全免费专业课程，从头开始学大统计数据数据，阿宝亲善

完全免费申领500节大统计数据数据合作开发专业课程www.wjx.cn/vm/hSkmWas.aspx

Apache Spark 竞争优势

如前所述缓存速度慢，特别是插值排序保有他们的闭环较好而广为的API全力支持 – 与Java，Python，Scala邻近地区软件系统一般而言架构内能展开格式化，互动式处置，动态统计数据数据处置借助灵活性分布式系统统计数据数据集 – RDD处置缓存中的统计数据数据假如统计数据数据在缓存中遗失，则能再次建立统计数据数据分布式系统 – 跨利皮扬卡储存在缓存中统计数据数据集-能努瓦雷塔或程式设计形式建立

Spark合作开发自然环境

Scala IDE

Add hadoop dependency or use mvn(加进hadoop倚赖或是采用maven)Compile to jar, build or download ml)Run with spark-submit

Spark-shell

Integrative command line application(软件系统配置文件应用领域)

Spark-sql

where spark using hive metadata(加载hive的matedata)

Spark 加减统计数据

Spark构架

写Spark任务一定要建立SparkContxt，在Driver节点上建立并且停留在Driver节点。

Spark核心组件

部分统计数据案例

一个任务对应一个分区，一个分区对应一个逻辑块)Stages来自于shuffle/wide变换

RDD默认分区数量

分区数量是根据在HDFS的物理块决定的

Apache Spark API – SparkContext

SparkContext

The connection between Driver and Spark Cluster (Workers)The main entry point for Spark functionality (Spark功能的主要入口点) Only one active SparkContext per JVM. (一个JVM只有一个SparkContext) SparkContext.getOrCreate

Spark API

SparkSession是Spark 2.0+应用领域程序的主要入口点

综合了以上所有功能

SparkSession.getOrCreate

Get an existing SparkSession or create a new One.Only one Global SparkSession per JVM. (一个JVM只有一个全局SparkSession)

SparkSession.newSession

Start a new session with isolated SQL configurations. Temporary tables, registered functionsare isolated as well. (采用隔离的SQL配置启动一个新会话。临时表和已注册函数也是相互隔离的)SparkContext and Cached Data are share d. (共享SparkContext和缓存的统计数据数据) SparkSession.newSession，能如前所述Global SparkSession建立更多的子session，用于资源隔离