大数据技术发展趋势

2023-05-31 0 876

我们可以通过图1来认识统计数据处理应用软件的边线。具体来说它是一种应用软件,处在下层硬体和下层应用应用领域之间,本质上是借助排序机硬体的储存和排序潜能,对统计数据进行储存、管理、加工等操作,最终为的是支持下层各种类型应用应用领域。   图1 统计数据信息控制系统所处边线   统计数据处理控制技术到现在至少有50年的产业发展历史,大概经历了几个产业发展期,具体见图2。第一个期是亲密关系型统计数据源的明确提出,为亲密关系资料库产业发展打下了理论基础;第二个期是Oracle和DB2等商业性亲密关系型资料库的蓬勃发展和产业发展壮大,开始了商业性资料库产品在各行各业的应用应用领域,资料库也正式宣布正式宣布成为的是继伺服器、操作控制系统之外的第三个必需品;第三期由于销售业务场景的需要,资料库被分为面向全国销售业务的外交事务资料库和面向全国分析统计的预测资料库,两者之间的构架和可视化方式也发生了变化,这是资料库控制技术的第一次分离;第四个期是资料库控制技术的分布式控制系统大潮,最先是从统计数据预测端产生的,FPS难以应付海量统计数据预测的市场需求,分布式控制系统水平扩充的市场需求提上日程,Hadoop、Spark和各种类型NoSQL都是为的是应付这一市场需求而问世,而分布式控制系统的控制技术也在2010年以内扩充到了外交事务资料库应用领域,主要就为的是应付愈来愈多的网络销售业务。   图2 统计数据信息控制系统的产业发展阶段   统计数据信息控制系统处在硬体和应用应用领域之间的边线决定了它自身的控制技术演进主要就依赖于下层硬体的产业发展和下层应用应用领域端的市场需求变化。在硬体端,从上世纪70年代开始,通用伺服器的晶片、缓存的产业发展就遵循这一趋势,FPS的性能愈来愈强,推动着资料库的处置潜能不断增强,借助缓存潜能也是一大趋势。而进入2000年,晶片处置潜能的快速增长赶不上销售业务和统计数据的快速增长,FPS控制系统的困局显露,导致统计数据信息控制系统向分布式控制系统构架转型。在应用应用领域端,销售业务的互联网化、在线化使得销售业务流量和访问频率呈指数级的快速增长,FPS封闭式构架处置遇到困局,而移动网络下动辄上千万的级的用户数量,明确提出了海量统计数据预测的考验,分布式控制系统构架正是为应付这些考验而生。   2 大统计数据控制技术发展心路历程   大统计数据的应用应用领域和控制技术起源于网络,具体来说是中文网站和网页的爆发式快速增长,搜索引擎子公司最先感受到了海量统计数据带来的控制技术上的考验,随后蓬勃发展的社交网络、视频中文网站、移动网络的大潮加剧了这一考验。网络企业发现新统计数据的快速增长幅度、多样性和对处置追诉的要求是传统资料库、数据挖掘纵向扩充构架难以应付的。在此背景下,Google子公司率先于2004年明确提出一套分布式控制系统统计数据处置的控制技术管理体系,即分布式控制系统文件控制系统Google文件控制系统(Google file system,GFS)、分布式控制系统排序控制系统MapReduce和分布式控制系统资料库BigTable,以较高成本很不用说了大统计数据面临的困境,打下了大统计数据控制技术的基础。受Google子公司论文启发,Apache Hadoop实现了自己的分布式控制系统文件控制系统HDFS、分布式控制系统排序控制系统MapReduce和分布式控制系统资料库HBase,并将其进行开放源码,这是大统计数据控制技术开放源码自然生态管理体系的起点。2008年以内,AOL最先在实际环境中搭建了大规模的Hadoop集群,这是Hadoop在网络子公司使用最先的案例,后来Hadoop自然生态的控制技术就渗透到了网络、电信、金融乃至更多的行业。2009年UCBerkley大学的AMPLab研发出了Spark,经过5年的产业发展,正式宣布替换了Hadoop自然生态中MapReduce的地位,正式宣布成为的是新一代排序引擎,而2013年纯排序的Flink问世,对Spark发出了考验。2014年之后大统计数据控制技术自然生态的产业发展进入了平稳期。   图3 大统计数据预测控制技术的产业发展心路历程   经过10年以内的产业发展,大统计数据控制技术逐步形成了以开放源码为主导、多种控制技术和构架并存的特点。从统计数据在信息控制系统中的生命周期看,大统计数据控制技术自然生态主要就有5个产业发展方向,包括统计数据采集与数据传输、统计数据储存、资源调度、排序处置、查询与预测。在统计数据采集与数据传输应用领域渐渐逐步形成了Sqoop、Flume、Kafka等一系列开放源码控制技术,兼顾app和实时统计数据的采集和数据传输。在储存层,HDFS已经正式宣布成为的是大统计数据磁盘储存的基克维泽区,针对亲密关系型以外的统计数据源,开放源码社区逐步形成了K-V(key-value)、列式、文档、图4类NoSQL资料库管理体系,HBase、Cassandra、MongoDB、Neo4j、Redis等资料库百花齐放。资源调度方面,Yarn独领风骚,Mesos有一定产业发展签里。排序处置引擎方面慢慢覆盖了app批量排序、实时排序、流排序等场景,问世了MapReduce、Spark、Flink、Storm等排序框架。在统计数据查询和预测应用领域逐步形成了丰富的SQL on Hadoop的解决方案,Hive、HAWQ、Impala、Presto、Drill等控制技术与传统的大规模并行处置(massively parallel processor,MPP)资料库竞争激烈。   图4 大统计数据控制技术自然生态   3 大统计数据控制技术产业发展趋势   2014年以后,整体大统计数据的控制技术栈已经趋于稳定,由于云排序、人工智能等控制技术产业发展,还有晶片、缓存端的变化,大统计数据控制技术也在发生相应的变化。总结来看主要就有几点产业发展趋势:   一是流式构架的更替,最先大统计数据自然生态没有办法统一批处置和流排序,只能采用Lambda构架,批的任务用批排序引擎,流式任务采用流排序引擎,比如批处置采用MapReduce,流排序采用Storm。后来Spark试图从批的角度统一流处置和批处置,Spark Streaming采用了micro-bach的思路来处置流统计数据。近年来纯流构架的Flink异军突起,由于其构架设计合理,自然生态健康,近年来产业发展特别快。而Spark近期也抛弃了自身微批处置的构架,转向了纯流构架Structure Streaming,流排序的未来霸主还未见分晓。   二是大统计数据控制技术的云化,一方面是公有云销售业务的成熟,众多大统计数据控制技术都被搬到了云上,其运维方式和运行环境都发生了较大变化,带来排序和储存资源更加的弹性变化,另一方面,私有部署的大统计数据控制技术也逐渐采用容器、虚拟化等控制技术,期望更加精细化地借助排序资源。   三是异构排序的市场需求,近年来在通用CPU之外,GPU、FPGA、ASIC等晶片产业发展迅猛,不同晶片擅长不同的排序任务,例如GPU擅长图像统计数据的处置,大统计数据控制技术开始尝试根据不同任务来调用不同的晶片,提升统计数据处置的效率。   四是兼容智能类的应用应用领域,随着深度学习的崛起,AI类的应用应用领域愈来愈广泛,大统计数据的控制技术栈在努力兼容AI的潜能,通过一站式的潜能来做统计数据分析和AI应用应用领域,这样开发者就能在一个工具站中编写SQL任务,调用机器学习和深度学习的算法来训练模型,完成各种类型统计数据预测的任务。   4 总结与展望   统计数据处理控制技术已经产业发展了50多年了,大统计数据控制技术是在统计数据管理控制技术的基础上,面向全国大规模统计数据预测的控制技术栈,它主要就是分布式控制系统构架的设计思路,通过并行排序的方式来提升处置效率,同时具备了高扩充潜能,根据销售业务市场需求随时扩充。经过15年以内的产业发展,大统计数据的控制技术栈逐渐成熟,然而近年来云排序、人工智能等控制技术的产业发展,还有下层晶片和缓存端的变化,以及视频等应用应用领域的普及,都给大统计数据控制技术带来新的要求。未来大统计数据控制技术会沿着异构排序,批流融合,云化,兼容AI,缓存排序等方向持续更迭,5

1 统计数据处理控制技术产业发展背景

大统计数据的控制技术是统计数据处理控制技术的一种,统计数据信息控制系统有应用应用领域之间,本质上是借助排序机硬体的储存和排序潜能,对统计数据进行储存、管理、加工等操作,最终为的是支持下层各种类型应用应用领域。

图1 统计数据信息控制系统所处边线

统计数据处理控制技术到现在至少有50年的产业发展历史,大概经历了几个产业发展期,具体见图2。第一个期是亲密关系型统计数据源的明确提出,为亲密关系资料库产业发展打下了理论基础;第二个期是Oracle和DB2等商业性亲密关系型资料库的蓬勃发展和产业发展壮大,开始了商业性资料库产品在各行各业的应用应用领域,资料库也正式宣布成为的是继伺服器、操作控制系统之外的第三个必需品;第三期由于销售业务场景的需要,资料库被分为面向全国销售业务的外交事务资料库和面向全国预测统计的预测资料库,两者之间的构架和可视化方式也发生了变化,这是资料库控制技术的第一次分离;第四个期是资料库控制技术的分布式控制系统大潮,最先是从统计数据预测端产生的,FPS难以应付海量统计数据预测的市场需求,分布式控制系统水平扩充的市场需求提上日程,Hadoop、Spark和各种类型NoSQL都是为的是应付这一市场需求而问世,而分布式控制系统的技术也在2010年以内扩充到了外交事务资料库应用领域,主要就为的是应付愈来愈多的网络销售业务。

图2 统计数据信息控制系统的产业发展期

统计数据信息控制系统处在硬体和应用应用领域之间的边线决定了它自身的控制技术演进主要就依赖于下层硬体的产业发展和下层应用应用领域端的市场需求变化。在硬体端,从上世纪70年代开始,通用伺服器的晶片、缓存的产业发展就遵循这一趋势,FPS的性能愈来愈强,推动着资料库的处置潜能不断增强,借助缓存潜能也是一大趋势。而进入2000年,晶片处置潜能的增长赶不上销售业务和统计数据的快速增长,FPS控制系统的困局显露,导致统计数据信息控制系统向分布式控制系统构架转型。在应用应用领域端,销售业务的网络化、在线化使得销售业务流量和访问频率呈指数级的快速增长,FPS封闭式构架处置遇到困局,而移动网络下动辄上千万的级的用户数量,明确提出了海量统计数据预测的考验,分布式控制系统构架正是为应付这些考验而生。

2 大统计数据控制技术产业发展心路历程

大统计数据的应用应用领域和控制技术起源于网络,具体来说是中文网站和网页的爆发式快速增长,搜索引擎子公司最先感受到了海量统计数据带来的技术上的考验,随后蓬勃发展的社交网络、视频中文网站、移动网络的大潮加剧了这一考验。网络企业发现新统计数据的快速增长幅度、多样性和对处置追诉的要求是传统资料库、数据挖掘纵向扩充构架难以应付的。在此背景下,Google子公司率先于2004年明确提出一套分布式控制系统统计数据处置的控制技术管理体系,即分布式控制系统文件控制系统Google文件控制系统(Google file system,GFS)、分布式控制系统排序控制系统MapReduce和分布式控制系统资料库BigTable,以较高成本很好地解决了大统计数据面临的困境,打下了大统计数据控制技术的基础。受Google子公司论文启发,Apache Hadoop实现了自己的分布式控制系统文件控制系统HDFS、分布式控制系统排序控制系统MapReduce和分布式控制系统资料库HBase,并将其进行开放源码,这是大统计数据控制技术开放源码自然生态管理体系的起点。2008年以内,AOL最先在实际环境中搭建了大规模的Hadoop集群,这是Hadoop在网络子公司使用最先的案例,后来Hadoop自然生态的控制技术就渗透到了网络、电信、金融乃至更多的行业。2009年UCBerkley大学的AMPLab研发出了Spark,经过5年的产业发展,正式宣布替换了Hadoop自然生态中MapReduce的地位,正式宣布成为的是新一代排序引擎,而2013年纯排序的Flink问世,对Spark发出了考验。2014年之后大统计数据控制技术自然生态的产业发展进入了平稳期。

图3 大统计数据预测控制技术的产业发展心路历程

经过10年以内的产业发展,大统计数据控制技术逐步形成了以开放源码为主导、多种控制技术和构架并存的特点。从数据在信息控制系统中的生命周期看,大统计数据控制技术自然生态主要就有5个产业发展方向,包括统计数据采集与数据传输、统计数据储存、资源调度、排序处置、查询与预测。在统计数据采集与数据传输应用领域渐渐逐步形成了Sqoop、Flume、Kafka等一系列开放源码控制技术,兼顾app和实时统计数据的采集和数据传输。在储存层,HDFS已经正式宣布成为的是大统计数据磁盘储存的基克维泽区,针对亲密关系型以外的统计数据源,开放源码社区逐步形成了K-V(key-value)、列式、文档、图4类NoSQL资料库管理体系,HBase、Cassandra、MongoDB、Neo4j、Redis等资料库百花齐放。资源调度方面,Yarn独领风骚,Mesos有一定产业发展签里。排序处置引擎方面慢慢覆盖了app批量排序、实时排序、流排序等场景,问世了MapReduce、Spark、Flink、Storm等排序框架。在统计数据查询和预测应用领域逐步形成了丰富的SQL on Hadoop的解决方案,Hive、HAWQ、Impala、Presto、Drill等控制技术与传统的大规模并行处置(massively parallel processor,MPP)资料库竞争激烈。

图4 大统计数据控制技术自然生态

3 大统计数据控制技术产业发展趋势

2014年以后,整体大统计数据的控制技术栈已经趋于稳定,由于云排序、人工智能等控制技术产业发展,还有晶片、缓存端的变化,大统计数据控制技术也在发生相应的变化。总结来看主要就有几点产业发展趋势:

一是流式构架的更替,最先大统计数据自然生态没有办法统一批处置和流排序,只能采用Lambda构架,批的任务用批排序引擎,流式任务采用流排序引擎,比如批处置采用MapReduce,流排序采用Storm。后来Spark试图从批的角度统一流处置和批处置,Spark Streaming采用了micro-bach的思路来处置流统计数据。近年来纯流构架的Flink异军突起,由于其构架设计合理,自然生态健康,近年来产业发展特别快。而Spark近期也抛弃了自身微批处置的构架,转向了纯流构架Structure Streaming,流排序的未来霸主还未见分晓。

二是大统计数据控制技术的云化,一方面是公有云销售业务的成熟,众多大统计数据控制技术都被搬到了云上,其运维方式和运行环境都发生了较大变化,带来排序和储存资源更加的弹性变化,另一方面,私有部署的大统计数据控制技术也逐渐采用容器、虚拟化等控制技术,期望更加精细化地借助排序资源。

三是异构排序的市场需求,近年来在通用CPU之外,GPU、FPGA、ASIC等晶片产业发展迅猛,不同晶片擅长不同的排序任务,例如GPU擅长图像统计数据的处置,大统计数据控制技术开始尝试根据不同任务来调用不同的晶片,提升统计数据处置的效率。

四是兼容智能类的应用应用领域,随着深度学习的崛起,AI类的应用应用领域愈来愈广泛,大统计数据的控制技术栈在努力兼容AI的潜能,通过一站式的潜能来做统计数据预测和AI应用应用领域,这样开发者就能在一个工具站中编写SQL任务,调用机器学习和深度学习的算法来训练模型,完成各种类型统计数据预测的任务。

4 总结与展望

统计数据处理控制技术已经产业发展了50多年了,大统计数据控制技术是在统计数据处理控制技术的基础上,面向全国大规模统计数据预测的控制技术栈,它主要就是分布式控制系统构架的设计思路,通过并行排序的方式来提升处置效率,同时具备了高扩充潜能,根据销售业务市场需求随时扩充。经过15年以内的产业发展,大数据的控制技术栈逐渐成熟,然而近年来云排序、人工智能等控制技术的产业发展,还有下层晶片和缓存端的变化,以及视频等应用应用领域的普及,都给大统计数据控制技术带来新的要求。未来大统计数据控制技术会沿着异构排序,批流融合,云化,兼容AI,缓存计算等方向持续更迭,5G和物联网应用应用领域的成熟,又将带来海量视频和物联网统计数据,支持这些统计数据的处置也会是大统计数据控制技术未来产业发展的方向。

相关文章

发表评论
暂无评论
官方客服团队

为您解决烦忧 - 24小时在线 专业服务