Apache Spark基础及架构

2023-05-27 0 770

音频文本:

国际版申领形式:

电视广告
整套大统计数据数据CTO完全免费专业课程,从头开始学大统计数据数据,阿宝亲善

Apache Spark 竞争优势

如前所述缓存速度慢,特别是插值排序保有他们的闭环较好而广为的API全力支持 – 与Java,Python,Scala邻近地区软件系统一般而言架构内能展开格式化,互动式处置,动态统计数据数据处置借助灵活性分布式系统统计数据数据集 – RDD处置缓存中的统计数据数据假如统计数据数据在缓存中遗失,则能再次建立统计数据数据分布式系统 – 跨利皮扬卡储存在缓存中统计数据数据集-能努瓦雷塔或程式设计形式建立

Spark合作开发自然环境

Scala IDE

Add hadoop dependency or use mvn(加进hadoop倚赖或是采用maven)Compile to jar, build or download ml)Run with spark-submit

Spark-shell

Integrative command line application(软件系统配置文件应用领域)

Spark-sql

where spark using hive metadata(加载hive的matedata)

Spark 加减统计数据

Apache Spark基础及架构

Spark构架

Apache Spark基础及架构

写Spark任务一定要建立SparkContxt,在Driver节点上建立并且停留在Driver节点。

Spark核心组件

Apache Spark基础及架构

部分统计数据案例

Apache Spark基础及架构
一个任务对应一个分区,一个分区对应一个逻辑块)Stages来自于shuffle/wide变换

RDD默认分区数量

分区数量是根据在HDFS的物理块决定的
Apache Spark基础及架构

Apache Spark API – SparkContext

SparkContext

The connection between Driver and Spark Cluster (Workers)The main entry point for Spark functionality (Spark功能的主要入口点) Only one active SparkContext per JVM. (一个JVM只有一个SparkContext) SparkContext.getOrCreate
Apache Spark基础及架构

Spark API

SparkSession是Spark 2.0+应用领域程序的主要入口点

综合了以上所有功能

SparkSession.getOrCreate

Get an existing SparkSession or create a new One.Only one Global SparkSession per JVM. (一个JVM只有一个全局SparkSession)

SparkSession.newSession

Start a new session with isolated SQL configurations. Temporary tables, registered functionsare isolated as well. (采用隔离的SQL配置启动一个新会话。临时表和已注册函数也是相互隔离的)SparkContext and Cached Data are share d. (共享SparkContext和缓存的统计数据数据) SparkSession.newSession,能如前所述Global SparkSession建立更多的子session,用于资源隔离

Spark API-RDD, DataSet

RDD(Resilient Distributed Dataset)

主要是统计数据数据抽象和Spark的核心

DataSet

可采用函数或关系操作,并行转换的特定对象的强类型集合)

DataFrame

一个统计数据数据集的无类型视图,它是一个行统计数据数据集。DataFrame =Dataset[Row]

RDD的Spark程序流程

Apache Spark基础及架构
Apache Spark基础及架构

相关文章

发表评论
暂无评论
官方客服团队

为您解决烦忧 - 24小时在线 专业服务