主流大数据ETL工具

2023-06-05 0 850

主流大数据ETL工具

ETL是数库房中的非常关键的劳特尔,是承上启下的必要性的一步棋。ETL负责管理将原产的、直链统计管理工具中的统计数据如关系统计数据、正方形统计CSV等抽出到临时性第二层后展开冲洗、切换、软件系统,最后读取到统计基础架构或统计数据市集中,成为联机预测处置、统计数据预测的基础。下面给大家如是说一下甚么是ETL以及ETL常见的四种辅助工具(Datastage,Informatica,Kettle)!

1.ETL是甚么?

ETL,是英语Extract-Tran工切换,然后读取到表述好的统计基础架构数学模型中去。目地是将民营企业中的零散、杂乱、国际标准不国际标准化的统计数据资源整合到一起,为民营企业的重大决策提供预测依照。ETL是BI工程项目关键的一个各个环节,其结构设计的优劣负面影响聚合统计数据的产品质量,直接关系到BI工程项目地存亡。

2.为甚么要用ETL辅助工具?

当统计数据源自不同的力学机内,这时如采用SQL句子去处置的话,就变得较为狼狈且开支也Villamblard。

文件格式后才能展开统计数据的处置,这一操作方式过程用标识符实现或许有些麻烦事。

在统计资料库中他们总之能采用储存操作方式过程去处置统计数据,但是处置海量统计数据的时候储存操作方式过程或许较为狼狈,而且会挤占非常多统计资料库的天然资源,这可能会导致统计数据天然资源不足,从而负面影响统计资料库的操控性。

下面所言的问题,他们用ETL辅助工具就能化解。它的缺点有:

支持多种不同直链统计管理工具的相连(部分);

GUI的介面操作方式十分方便快捷;

处置海量统计数据速度慢、业务流程更明晰等。

3.ETL辅助工具如是说

Informactica和Datastage占据国内市场的大部分的份额。

4.ETL辅助工具差异

Kettle,Datastage,Informatica三个ETL辅助工具的特点和差异如是说:

操作方式:

都是属于较为简单易用,主要是开发人员对于辅助工具的熟练程度。Informatica有四个开发管理组,开发的时候他们需要打开其中三个展开开发,Informatica没有ctrl+z的功能,如果对job作了改变之后,想要撤回,返回Informatica方便快捷。Kettle介于两者之间。

部署

Kettle只需要JVM环境,Informatica需要服务器和客户端安装,而Datastage的部署较为耗费时间,有一点难度。

统计数据处置的速度

大统计数据量下Informatica与Datastage的处置速度是较为快的,较为稳定。Kettle的处置速度相比之下稍慢。

服务

Informatica与Datastage有很好的商业化的技术支持,而 Kettle则没有。商业软件的售后服务上会比免费的开源软件好很多。

风险

风险与成本成反比,也与技术能力成正比。

扩展

Kettle的扩展性无疑是最好,因为是开源标识符,能自己开发拓展它的功能,而Informatica和Datastage由于是商业软件,基本上没有。

Job的监控

三者都有监控和日志辅助工具,在统计数据的监控上,个人觉得Datastage的实时监控做的更加好,能直观看到统计数据抽出的情况,运行到哪一个控件上。这对于调优来说,他们能更快的定位到处置速度太慢的控件并展开处置,而informatica也有相应的功能,但是并不直观,需要通过两个介面的对比才能定位到处置速度缓慢的控件。有时候还需要通过一些方法去查找。

网上的技术文档

Datastage<Informatica<kettle相对来说,Datastage跟 nformatica在遇到问题去网上找到化解方法的概率较为低,kettle则比非常多。

相关文章

发表评论
暂无评论
官方客服团队

为您解决烦忧 - 24小时在线 专业服务