Apache四个大型开源数据和数据湖系统

2023-01-01 0 408

五个小型统计数据和统计数据湖的小型Apache控制系统,Apache Shardingsphere,Apache沙丘,Apache Hudi和Apache IotdB

Apache四个大型开源数据和数据湖系统

管理工作大统计数据所需的许多机能是其中一些是外交事务,统计数据变异,统计数据标定,在线视频全力支持,构架重构,因为碱性外交事务潜能Apache提供更多了三种,用作满足用户和管理工作大统计数据。

Apache Sharding Sphere

它是两个不可否认的统计资料库合作开发工具控制系统。它包涵四个分立的组件,JDBC,Proxy和Sidecar(方案),但在布署时它都混和在一起。Apache Shardingsphere提供更多技术标准的统计数据新溪洲,分布式控制系统外交事务和统计资料库自然环境治理机能,能特别针对各种多元化应用领域方案,比如Java同义词,直链词汇和云本机。

Apache四个大型开源数据和数据湖系统

那时的电商主要就倚赖关控制系统计资料库和分布式控制系统自然环境,高效率查阅的剧增和统计数据加速迁移成为公司关控制系统计资料库的主要就最终目标Apache Shardingsphere是了不起的关控制系统计资料库中间件生态控制系统,它为其合作开发者提供更多了科学合理的排序和储存机能关控制系统计资料库。

Apache四个大型开源数据和数据湖系统

Apache Iceberg

Apache Iceberg 起初由Netflix结构设计和合作开发。关键性的设想是组织产品目录根上的大部份文档,如果您需要在2018年5月建立的文档在Apache iceBerg中,您只需找寻该文档并黎贞该文档,也没有必要性写作您能写作的其它文档忽视您对个别情况不太重要的其它统计数据。中心思想是追踪方案上奏中的大部份更动。

它是一种用作追踪非常大的表的统计数据湖软件控制系统,它是两个轻量统计数据湖软件控制系统,意在化解列举大批南区和费时和不完全一致的元统计数据和HDFS统计数据的问题。它包涵三种类型的表格格式木质,Avro和Orc.in Apache iceberg表格格式与文档集合和文档格式的集合执行相同的东西,允许您在单个文档中跳过统计数据

它是一种用作在非常小型和比例表上追踪和控制的新技术格式。它专为对象储存而结构设计(比如S3)。Iceberg 中更重要的概念是两个快照。快照表示一组完整的表统计数据文档。为每个更新操作生成新快照。

Apache Iceberg 有以下特征:

ACID 外交事务潜能,能在不影响当前运行统计数据处理任务的情况下进行上游统计数据写入,这大大简化了ETL; Iceberg 提供更多更好的合并潜能,能大大减少统计数据储存延迟;全力支持更多的分析引擎优异的内核抽象使其不绑定到特定的排序引擎。目前,沙丘全力支持的排序发动机是Spark,Flink,Presto和Hive。Apache Iceberg为文档储存,组织,基于流的增量排序模型和基于批处理的全尺度排序模型提供更多统一和灵活的统计数据。批处理和流式传输任务能使用类似的储存模型,并且不再隔离统计数据。iceberg全力支持隐藏的南区和南区重构,这促进了业务更新统计数据南区策略。全力支持四个储存格式木质,Avro和Orc。增量读取处理潜能iceBerg全力支持以流式方式读取增量统计数据,全力支持流和传输表源。

Apache Hudi

Apache Hudi是两个大统计数据增量处理框架,它试图化解摄取管道的效率问题和在大统计数据中需要插入,更新和增量消耗基元的ETL管道。它是特别针对分析和扫描优化的统计数据储存抽象,其能在几分钟内将更动应用作HDF中的统计数据集,并全力支持多个增量处理控制系统来处理统计数据。通过自定义InputFormat与当前Hadoop生态控制系统(包括Apache Hive,Apache Parquet,Presto和Apache Spark)的集成使框架无缝为最终用户。

据中涉及的文档,然后读取统计数据并合并更新的统计数据。这种模式更易于更新统计数据,但是当涉及的统计数据更新时更新时,效率非常低;并合并读取是要将更新写入单独的新文档,然后我们能选择与原始统计数据同步或异步地将更新的统计数据与原始统计数据合并(能调用组合),因为更新的仅编写新文档,所以此模式将更新更快。

在Hudi控制系统的帮助下,很容易在MySQL,HBase和Cassandra中收集增量统计数据,并将其保存到Hudi。然后,presto,spark和hive能加速写作这些递增更新的统计数据。

Apache四个大型开源数据和数据湖系统

Apache Iotdb

它是一种物联网时间序列工业统计资料库,Apache IOTDB是一款集成,储存,管理工作和Anallyze Thge IoT时间序列统计数据的软件控制系统。Apache IOTDB采用具有高性能和丰富机能的轻量构架,并与Apache Hadoop,Spark和Flink等进行深度集成,能满足用户工业中大规模统计数据储存,高速统计数据读数和复杂统计数据分析的需求事物互联网领域。

Apache IOTDB套件由多个组件组成,它一起形成一系列机能,比如“统计数据收集 – 统计数据写入统计数据储存 – 统计数据查阅 – 统计数据可视化统计数据分析”。其结构如下:

用户可以导入从设备上的传感器收集的时间序列统计数据,服务器负载和CPU内存等消息队列中的时间序列统计数据,时间序列统计数据,应用领域程序的时间序列统计数据或从其它统计资料库到本地或远程IOTDB的时间序列统计数据JDBC。在。用户还可以直接将上述统计数据写入本地(或在HDFS上)TSFile文档。TSFile文档能写入HDF,以实现统计数据处理平台的统计数据处理平台等异常检测和机器学习等统计数据处理任务。对于写入HDFS或本地的TSFile文档,您能使用TSFile-Hadoop或TSFile-Spark连接器来允许Hadoop或Spark处理统计数据。分析结果能写回TSFile文档。IOTDB和TSFile还提供更多相应的客户端工具,以满足用户用户在SQL,脚本和图形格式中查看统计数据的需求。

(本文由闻数起舞翻译自José Francisco Caiceo的文章《Four great Apache systems for big data and data lake, Apache ShardingSphere, Apache Iceberg, Apache Hudi and Apache IoTDB》,转载请注明出处,原文链接:

https://medium.com/cloud-believers/four-great-apache-systems-for-big-data-and-data-lake-apache-shardingsphere-apache-iceberg-238485129944)

相关文章

发表评论
暂无评论
官方客服团队

为您解决烦忧 - 24小时在线 专业服务