亚马逊云科技:Zero ETL迈出关键一步,数据由此实现无感知流动

2022-12-27 0 306

众所周知,经过近三十年的信息技术和网络化的建设,大部分民营企业已经从“没统计数据”产业发展到了“统计数据太少”的期。今天,各个领域正在由过去“粗放型”的增长朝著统计数据支撑的“系统化”营运结构调整,但接踵而至的是 ETL 各项任务的激剧收缩,民营企业的整座基础架构可能弥漫着上百万姚学甲,而许许多多 ETL 各项任务不但会让多次重复操作变得过多,处理过程复杂,同时还严重花费天数,可以说这让民营企业的统计数据软件系统工作面临着十分紧迫的考验。

所谓“ETL”,指的是将业务系统的统计数据经过抽取(Extract)、切换冲洗(Transform)和读取(Load)到基础架构、大统计数据网络平台的过程,目的是将民营企业中的零散、杂乱、标准不统一的统计数据资源整合到一起,为民营企业的重大决策提供分析依照。也正因此,ETL对任何一家民营企业来说历年来都是“亟待解决”的问题。统计数据显示,在民营企业的BI(数据挖掘)工程项目中,构筑 ETL 会花费整座工程项目至少1/3的天数;而自现代基础架构理论形成,ETL 构筑与保护甚至会占有统计数据技师超过70%的工作效率。

亚马逊云科技:Zero ETL迈出关键一步,数据由此实现无感知流动

在此背景下,在刚刚举行的2022Amazon云信息技术 re:Invent 全球讨论会上,Amazon云信息技术发布了一系列的崭新技术,希望最小化协助民营企业减少统计数据软件系统带来的伤痛和考验,而这些新技术、新功能的上架,不但能够协助民营企业的统计数据技师同时实现“降费”,更突显了统计数据“无交互”、“更自由”的壳状能力,而这也标志着Amazon云信息技术向“Zero ETL”——即创造一个没ETL平庸世界的蓝图再次迈进关键性一步棋,其价值毫无疑问关键性而不可估量。

天下“苦ETL”久矣的另一面

早在1991年,有著“基础架构之父”荣誉称号的迈克尔·恩门(Bill Inmon)出版发行了他的第一篇关于基础架构的论著《Building the Data Warehouse》,标志着基础架构概念的正式逐步形成,而经过十多年的产业发展,基础架构约莫经历了三个期的产业发展。

从早期譬如 Teradata、Greenplum 为代表现代数仓时代,到后来app储存计算网络平台(Hadoop、Hive、Spark、Flink)和实时数仓技术(Druid、Clickhouse、Doris)与网络平台同时涌现的湖仓并存时代,技术在产业发展的浪潮下快速迭代,以云原生数仓为中心的现代统计数据栈时代已然到来。

但是,无论是何种时代下的基础架构,都是把业务系统的统计数据从各个地方汇集过来,通过一系列标准化、规范化的操作,再存起来放在同一个地方,这个过程就是我们通常所说的“ETL”,而要完成这一工作,民营企业所面临的考验是巨大的,我们可以从几个维度来做观察:

亚马逊云科技:Zero ETL迈出关键一步,数据由此实现无感知流动

一是,统计数据量激增的问题,目前虽然可以通过统计数据上云、湖仓一体的技术解决统计数据民营企业统计数据储存的问题,让民营企业的统计数据管理同时实现更统一,统计数据接口更标准,分析更自助。但与此同时,随着统计数据量的爆炸,比如说一家中大型民营企业的BI工程项目可能会有几百到几千张的报表,每张报表可能有超过十个以上的指标,这就意味着有几万甚至几十万的业务指标,那么这些口径是不是统一?这些统计数据是不是在被人使用?以及如何确定这些报表另一面的统计数据价值呢?

二是,ETL“收缩”的问题,统计数据的软件系统工作还会让ETL各项任务和过程变得“收缩”。这另一面不但仅只是储存的问题,它带来更大的考验在于,这一过程中有著无数的ETL的各项任务,其实在不断地做着多次重复性的工作,不断地消耗整座统计数据集群的资源,而每一张报表另一面每运行一次,都可能涉及到几百甚至几千的费用,因此对民营企业而言,如何简化流程,控制成本也是必须要进行认真考量的问题。

三是,选型和保护的问题,主要体现在对于民营企业的统计数据技师而言,当前市面上的ETL工具多,这也代表这选择多和学习成本高,ETL的工具选型就是个难题。除此之外,由ETL“收缩”难题带来的考验还体现在,当下越复杂的工程项目调度各项任务越多,动辄数千个 ETL 各项任务的工程项目已“屡见不鲜”,因此统计数据技师要同时实现各项任务调度与排查,另一面的复杂与保护也是一个巨大的难题。

继而可见,民营企业的统计数据软件系统或者说完成ETL的过程,就是多次重复操作多,操作流程很繁琐,花费天数巨多,成本居高不下的过程,因此整座业界也就有了天下“苦ETL”久矣的说法。

“Zero ETL”迈进关键性一步棋

也正是洞察到这种崭新的考验,作为全球云计算、云统计数据库领域的领导者,Amazon云信息技术一直致力于同时实现“Zero ETL”的蓝图,同时也一直在投入开发基于“Zero ETL”理念的技术功能。

此前,Amazon云信息技术就同时实现了Amazon Athena的Federated Query联邦查询功能,可以对储存在关系统计数据源、非关系统计数据源、对象统计数据源和外部自定义统计数据源中的统计数据运行 SQL 查询,而无需移动统计数据。还有流式服务(如Amazon Kinesis 和 Amazon MSK)向统计数据储存服务(如 Amazon S3)无缝注入统计数据,从而协助民营企业客户及时分析统计数据。

亚马逊云科技:Zero ETL迈出关键一步,数据由此实现无感知流动

而在 re:Invent 2022 全球讨论会上,Amazon云信息技术的“Zero ETL”目标又再次迈进“关键性一步棋”——首当其冲的是,就是最新发布的Amazon Aurora zero-ETL与Amazon Redshift软件系统功能,它可以协助客户近乎实时地分析 PB 级交易统计数据。

据了解,借助Amazon Redshift软件系统的Amazon Aurora zero-ETL功能,民营企业的交易统计数据在写入Amazon Aurora后的几秒钟内可以自动连续复制,使其在Amazon Redshift中“即时可用”。而一旦统计数据在Amazon Redshift中可用,民营企业客户可立即可以开始分析统计数据,并且应用统计数据共享和Amazon Redshift ML等高级功能获得全面的预测性洞察。

更关键性的是,民营企业客户还可以将数据从多个Amazon Aurora统计数据库集群复制到同一个Amazon Redshift实例,跨多个应用程序获得洞察。这样一来,客户可以使用Amazon Aurora支持交易统计数据库需求,使用 Amazon Redshift进行分析,而无需构筑或保护复杂的统计数据管道。

那么,Amazon Aurora Zero-ETL to Amazon Redshift最大的好处或者说优势是什么呢?简而言之,这意味着亚马逊云信息技术打通了Aurora统计数据库和Redshift 基础架构,让民营企业客户不用执行ETL就能进行同步,且不会相互影响各自的正常运行。

换句话说,在过去民营企业如果需要跑一个ETL的业务,通常的流程是在白天执行ETL业务,把统计数据库中的统计数据导入到基础架构中,在晚上再进行分析;而现在,有了这项软件系统功能的“加持”之后,民营企业就可以完全“跳过”ETL的环节,直接在数仓中就能够进行分析,同时不用在中间去构筑很多复杂的基础设施,它也能自动保证各项任务完成。

其次,Amazon云信息技术在Amazon Redshift 中的一系列崭新实践和创新,同样也是其践行“Zero ETL”理念的最新印证,具体来看:Amazon云信息技术宣布Amazon Redshift与Apache Spark同时实现软件系统,能够让民营企业客户可以更加轻松地通过Apache Spark访问Amazon Redshift上的实时统计数据。

亚马逊云科技:Zero ETL迈出关键一步,数据由此实现无感知流动

我们知道,Amazon云信息技术支持在Amazon EMR、Amazon Glue和Amazon SageMaker上运行Apache Spark,而民营企业客户通常希望直接从这些服务中分析Amazon Redshift中的统计数据。但是,这一过程并不轻松,企业需要经历复杂、耗时的过程查找、测试和认证第三方连接器,以在他们的环境和Amazon Redshift之间读取和写入统计数据,这些流程毫无疑问都显著增加了整座操作的复杂性,使民营企业客户难以充分利用Apache Spark的价值。

而Amazon Redshift与Apache Spark同时实现软件系统,就可以协助客户在使用Amazon云信息技术的分析和机器学习服务时可以更快更轻松地通过 Apache Spark 应用程序访问到 Redshift 上的统计数据,这样开发人员就可以快速而敏捷地同时实现分析与机器学习。

亚马逊云科技:Zero ETL迈出关键一步,数据由此实现无感知流动

在此基础上,Amazon云信息技术的Amazon Redshift也支持 Amazon S3 自动复制(预览版),借助这项新功能,Amazon Redshift 会将民营企业指定到达的 Amazon S3 的文件自动读取到民营企业的基础架构中,例如 CSV、JSON、Parquet 和 Avro,无需手动或多次重复运行复制过程,而Amazon Redshift 可自动抽取文件并负责幕后统计数据的读取步骤;同时,Amazon云信息技术最新的Amazon Redshift streaming ingestion 流式统计数据接入功能也成功上架,该功能可以直接让流式统计数据接入基础架构,能够为民营企业打造云原生实时数仓奠定关键性基础,协助民营企业可以轻松地探索实时分析场景,同时基于历史统计数据的实时预测、反欺诈等场景。

最后,为了更大的协助民营企业完成统计数据软件系统的工作,Amazon云科技统计数据服务目前已可以连接超过100种外部统计数据源,像 Adobe、Salesforce 等各类 SaaS 应用,也包括各类 on-premise 统计数据源类型,因此民营企业可借助Amazon云信息技术提供的技术和工具,全面释放统计数据的更多的价值。

亚马逊云科技:Zero ETL迈出关键一步,数据由此实现无感知流动

事实上,最新发布的Amazon Aurora zero-ETL与Amazon Redshift软件系统功能也好,还是Amazon Redshift与Apache Spark同时实现集成也好,另一面都体现了Amazon云信息技术为了同时实现统计数据一体化的融合,正在将其统计数据库、统计数据服务底层打通,把各种各样的统计数据都连接到执行分析所需要的地方去,继而同时实现统计数据平滑“无感”的壳状,这既是“Zero ETL”的未来,更标志着民营企业未来在云上通过统计数据一体化融合,同时实现端到端统计数据之旅也正从梦想变成现实。

让统计数据分析变得“触手可及”

从Amazon云信息技术在“Zero ETL”的实践和探索中,其实不难发现,作为诞生于2012年的全球首个云基础架构,Amazon Redshift今天也正通过“与时俱进”的创新,为民营企业用户提供更多功能,以便更轻松、更快速、更安全地储存、处理和分析其所有统计数据,相信也会为千行百业的网络化结构调整提供更强大的驱动力。

客观地说,基础架构经过多年的产业发展,协助民营企业解决了很多统计数据方面的难题,但也要看到,随着民营企业实时统计数据分析的需求变得越来越迫切,特别是金融、电信等行业,由于日常需要处理大量人工智能、机器学习以及海量的结构化或者非结构化的统计数据实时分析等业务,因此也对数仓提出了新的考验,主要表现在:

复杂性高,主要表现在很多的基础架构使用上复杂性高,软件保护以及业务系统的保护的复杂性也很高;灵活性差,过去的统计数据仓库技术并不能很好地满足今天越来越多样化的分析统计数据类型与分析工作负载,对半结构化和非结构化的统计数据也无法提供原生的高效支持,此外也没针对统计数据科学,机器学习等深度分析场景的优化;性价比低,随着新硬件特别是闪存技术的产业发展,以及基础架构部署模式的多样化,也意味着存算分离,弹性使用正在变成民营企业的刚需,这也让过去基础架构的付费模式变得性价比越来越低。

亚马逊云科技:Zero ETL迈出关键一步,数据由此实现无感知流动

为此,Amazon Redshift也进行了大胆的技术创新,特别是其在无服务器(Serverless)化领域的探索,就为未来云原生实时基础架构的产业发展“打了个样”。

第一,基于Serverless架构设计,Amazon Redshift能够协助民营企业自动扩展资源,无需用户管理基础架构集群,使得用户体验得以简化;同时智能动态计算能够自动调配和扩展基础架构容量,提供一致快速的用户体验;此外,Amazon Redshift红海提供与用户的统计数据湖和其他统计数据源的无缝软件系统,性能出色,速度比任何其他云基础架构快三倍,且具有自动保护功能,储存和计算分离,能够将成本最高降低75%。

第二,源于“Zero ETL”理念创新,,可以针对操作性统计数据库完成实时统计数据查询;与第三方统计数据的统计数据市场进行良好的统计数据共享;可以连接数据挖掘类的统计数据应用,同时实现对大统计数据的实时分析和可视化;同时可以同Amazon S3统计数据湖进行功能资源整合,完成统计数据湖的导出,并基于开放标准统计数据格式进行分析等。

第三,专为实时统计数据应用场景而生,Amazon云信息技术围绕Amazon Redshift构筑了多种类型实时基础架构架构,如为支持APP埋点统计数据实时采集与分析类应用所构建的实时基础架构架构,就特别针对实时统计数据摄入、高并发实时查询等典型功能进行针对性优化设计,将易于使用和结构灵活的特点释放得“淋漓尽致”。

此外,基于kafka+flink架构并进行适配性改进,支撑实时报表的应用需求。可以实时按照不同维度进行汇总计算,依照指定形式归类统计数据,同时能够以每5分钟向Amazon Redshift实时表导入800万条统计数据,且可以秒级完成实时报表的历史统计数据定期删除或定期重建,这就相当于预制了多类型常用的“菜单”、“模板”,能够相当广泛的对接民营企业客户的主流实时统计数据分析需求,做到了让即时大统计数据分析的体验“触手可及”。

总的来看,无论是“Zero ETL”的探索实践,还是基于Serverless架构的大胆创新,另一面都体现出了Amazon云信息技术正以其强大的技术创新能力,减少民营企业在统计数据软件系统中面临的伤痛,让民营企业在新时代下的云原生实时数仓应用更简单方便,可以说真正为民营企业的实时统计数据分析乃至数字化结构调整提供了更好的选择,其价值也可谓:“不至于现在,更关乎未来。”

举报/反馈

相关文章

发表评论
暂无评论
官方客服团队

为您解决烦忧 - 24小时在线 专业服务