大数据基础及技术架构体系

2023-05-30 0 1,000

大统计数据虽说是前段时间些年比较火爆的词了,大统计数据基本上影响着他们的现实生活生活,特别新冠肺结核禽流感以来,他们国家充分运用了大统计数据控制技术同时实现禽流感的精确防控工作和管理,返程历史记录、多肽历史记录、疫苗接种历史记录等的的大统计数据控制技术应用领域的充分体现。那么什么是大统计数据,大统计数据都包涵什么样控制技术?今天他们一起来介绍下大统计数据和大统计数据管理体系构架。

大统计数据,简而言之就是规模非常大的统计数据。析方面大幅远远超过了现代统计资料库软件辅助工具能力覆盖范围的统计数据子集,具有海量数据的统计数据规模、加速的统计数据确权、多样化的统计正则表达式和价值表面积低五大特点。

oop,Hadoop的问世同时实现了大统计数据的储存和排序成为现实生活。Hadoop最先源于Lucene下的Nutch项目。Nutch的结构设计最终目标是构筑一个小型的全站搜检索擎,包括页面截取、检索、查阅等机能,但随着截取页面数目的增加,碰到了轻微的扩展性难题——如何化解数千万页面的储存和检索难题。2003年、2004年Google刊登的两篇学术论文为该难题提供了可取的软件系统。

Hadoop并不是单个的大统计信息处理工具,它是由数个大统计数据模块形成。其下层是 Hadoop Distributed File System(HDFS sysfs),它储存 Hadoop 软件产业中所有储存结点上的文档。HDFS的上几层是大统计数据的排序发动机MapReduce ,该发动机由JobTrackers和TaskTrackers组成之类。随著近些年大统计数据控制技术的快速发展,已形成从统计数据采集、统计数据储存、统计数据排序、统计数据挖掘、统计资源共享应用领域等完备的大统计数据控制技术模块。

大数据基础及技术架构体系

大统计数据控制技术构架

1.大统计数据采集辅助工具

Sqoop、DataX、Kettle等统计数据采集辅助工具可满足大部分关系型统计资料库及主流的非关系型统计资料库的统计数据采集任务;实时日志统计数据可通过Flume同时实现统计数据的采集。

Sqoop:是Apache下的项目,其主要用于在Hadoop(Hive)与现代的统计资料库(mysql、postgresql…)间进行统计数据的传递,可以将一个关系型统计资料库(例如 : MySQL ,Oracle ,Postgres等)中的统计数据导进到Hadoop的HDFS中,也可以将HDFS的统计数据导进到关系型统计资料库中。

DataX:DataX是阿里云 DataWorks统计数据集成 的开源版本,在阿里巴巴集团内被广泛使用的离线统计数据同步辅助工具/平台。DataX 同时实现了包括 MySQL、Oracle、OceanBase、SqlServer、Postgre、HDFS、Hive、ADS、HBase等各种异构统计数据源之间高效的统计数据同步机能。

Kettle:Kettle最先是一个开源的ETL辅助工具,全称为KDE Extraction, Transportation, Transformation and Loading Environment。Kettle以Java开发,支持跨平台运行,其特性包括:支持100%无编码、拖拽方式开发ETL统计数据管道;可对接包括现代统计资料库、文档、大统计数据平台、接口、流统计数据等统计数据源;支持ETL统计数据管道加入机器学习算法。

Flume:Flume最先是Cloudera提供的日志收集系统,是Apache下的一个孵化项目,Flume支持在日志系统中定制各类统计数据发送方,用于收集统计数据。

2.大统计数据储存工具

HDFS:sysfs,所有采集到大统计数据平台内的统计数据都可以储存到HDFS中。

Kafka:Kafka是由Apache软件基金会开发的一个开源流处理平台,由Scala和Java编写。Kafka是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者在网站中的所有动作流统计数据。准确的说Kafka是消息中间件,不属于统计数据储存辅助工具,不过由于其支持统计数据的持久化储存,通常实时统计数据也会通过Kafka保留一定周期的历史统计数据,所以经常在统计数据实时统计信息处理时用Kafka作为储存辅助工具。

3.大统计数据排序发动机

大统计数据排序发动机包括批排序发动机MapReduce、Spark、TEZ等,实时统计数据排序发动机包括Flink、Spark Streaming等。

MapReduce:MapReduce是一个基于软件产业的高性能并行排序平台(Cluster Infrastructure)。它允许用市场上普通的商用服务器形成一个包涵数十、数百至数千个结点的分布和并行排序软件产业。

Spark:Apache Spark是专为大规模统计信息处理而结构设计的加速通用的基于内存的大统计数据排序发动机。

Flink:Apache Flink是由Apache软件基金会开发的开源流处理框架,其核心是用Java和Scala编写的分布式流统计数据流发动机。Flink以统计数据并行和流水线方式执行任意流统计数据程序,Flink的流水线运行时系统可以执行批处理和流处理程序。

Spark Streaming:构筑在Spark上处理Stream统计数据的框架,基本的原理是将Stream统计数据分成小的时间片段(几秒),以类似batch批量处理的方式来处理这小部分统计数据。

Hive:hive是基于Hadoop的一个统计数据仓库辅助工具,用来进行统计数据提取、转化、加载,这是一种可以储存、查阅和分析储存在Hadoop中的大规模统计数据的机制。hive统计数据仓库辅助工具能将结构化的统计数据文档映射为一张统计资料库表,并提供SQL查阅机能,能将SQL语句转变成MapReduce任务来执行。

TEZ:TEZ是一个Hive的运行排序发动机,由于没有中间存盘的过程,性能优于MapReduce。TEZ可以将数个依赖作业转换成一个作业,这样只需要写一次HDFS,中间结点少,提高作业的排序性能。

4.大统计数据挖掘发动机

基于大统计数据的算法分析发动机包括机器学习辅助工具Spark MLlib,大统计数据OLAP发动机包括ClickHouse、HBase等。

Spark Mllib:Spark Mllib是Spark的机器学习(ML)库。旨在简化机器学习的工程实践工作,并方便扩展到更大规模。MLlib由一些通用的学习算法和辅助工具组成,包括分类、回归、聚类、协同过滤、降维等,同时还包括下层的优化原语和高层的管道API。

ClickHouse:ClickHouse是俄罗斯的Yandex于2016年开源的用于在线分析处理查阅(OLAP :Online Analytical Processing)MPP构架的列式储存统计资料库(DBMS:Database Management System),其能够使用SQL查阅实时生成分析统计数据报告。ClickHouse的全称是Click Stream,Data WareHouse。

HBase:HBase是一个分布式的、面向列的开源统计资料库,HBase在Hadoop之上提供了类似于Bigtable的能力。HBase是Apache的Hadoop项目的子项目。HBase不同于一般的关系统计资料库,它是一个适合于非结构化统计数据储存的统计资料库。另一个不同的是HBase基于列的而不是基于行的模式。

时序统计资料库:时序统计资料库全称为时间序列统计资料库。时间序列统计资料库指主要用于处理带时间标签(按照时间的顺序变化,即时间序列化)的统计数据,带时间标签的统计数据也称为时间序列统计数据。常见的时序统计资料库有InfluxDB 、Prometheus 、Graphite 等。

Redis:Redis(Remote Dictionary Server ),即远程字典服务,是一个开源的使用ANSI C语言编写、支持网络、可基于内存亦可持久化的日志型、Key-Value统计资料库,并提供多种语言的API。

以上就是大统计数据控制技术的基础,下一节他们一起来学习介绍各大统计数据控制技术模块的应用领域场景。

相关文章

发表评论
暂无评论
官方客服团队

为您解决烦忧 - 24小时在线 专业服务