HDFS架构设计理念以及优缺点

2023-01-01 0 1,024

Hadoop是两个由 Apache 促进会合作开发的分布式控制系统控制系统虚拟化。能加速同时实现小规模统计数据的分布式控制系统储存合作开发,和分布式控制系统程序的加速合作开发,利用软件产业的杀伤力展开大统计数据的高速储存和演算。其中 Hadoop 分布式文档控制系统(Hadoop Distributed File System,HDFS)起到非常关键的作用,HDFS 是 Hadoop 项目核心经营理念农健,HDFS 是分布式控制系统计算中统计数据储存管理工作的基础,它以文档的形式为下层应用提供更多海量统计数据储存服务,并同时实现了高效率率、高容抗、高扩展性、可扩展性、高林宏吉率等特点。

一、HDFS产生的背景

统计信息量的不断增大引致统计数据在两个作业控制系统统辖的范围内储存不出,为了储存这些大规模统计数据,须要将统计数据分配到更多作业控制系统管理工作的硬盘中储存,但是这样处理会引致统计数据的管理工作和保护很不方便,因此迫切须要一类控制系统来管理工作和保护几台机器上的统计数据文档,这种控制系统就是分布式控制系统文档管理工作控制系统,而HDFS只是分布式文档管理工作控制系统中的一类。

机通过互联网展开相连,而HDFS 作为两个抽象化层构架在软件产业互联网之上,对外提供更多统一的文档管理工作机能,对于用户而言感觉像在操作两台计算机那样,根本感受不到 HDFS 下层的点对点,所以 HDFS 还能够很好地放任结点机械故障且不遗失任何统计数据。

下面来看一下HDFS的核心经营理念设计目标。

(1)全力支持大容量文档储存

全力支持大容量文档储存是HDFS最基本的机能。这里的“大容量文档”指大小达到TB、PB等级的文档。随着未来技术水准的发展,统计数据文档的规模还能更大。

(2)INS13ZD统计数据出访

INS13ZD统计数据出访是HDFS优先选择的最高效率的统计数据出访方式。

INS13ZD统计数据出访能单纯理解为加载统计数据文档就像打开水桶那样,能不停地加载和预测,所以每天预测单厢涉及该统计数据集的大部分甚至全部统计数据,因此每天乱数存取的统计信息量都很大,因此对整座控制系统而言加载整座统计数据集是须要的天数要比加载第二条记录所须要的天数更关键,即HDFS 更重视统计数据的林宏吉量,而并非统计数据的出访天数。因此 HDFS 优先选择采用一次载入、多次加载的INS13ZD统计数据出访商业模式,而并非乱数出访商业模式。

(3)单纯的连续性模型

在 HDFS 中,文档创建、载入、停用,不再展开修改保证统计数据的连续性。

(4)硬件机械故障的检测和加速应对

利用大量普通硬件构成的软件产业平台中,硬件出现机械故障是常见的问题。一般的HDFS控制系统是由数十台甚至成百上千台储存着统计数据文档的服务器组成,大量的服务器就意味着高机械故障率,但是HDFS在设计之初已经充分考虑到这些问题,认为硬件机械故障是常态而并非异常,因此如何展开机械故障的检测和加速自动恢复也是HDFS的关键设计目标之一。

总之,HDFS能够较好地运行在廉价的硬件软件产业之上,以INS13ZD统计数据出访商业模式来储存管理工作大容量统计数据文档。这也是HDFS成为大统计数据领域使用最多的分布式控制系统储存控制系统的主要原因。

三、HDFS的优劣

(1)HDFS的优点:高容错性、适合大统计数据处理、INS13ZD文档出访、可构建在廉价的机器上。

(2)HDFS的缺点:不适合低延时统计数据出访、不适合大量小文档的储存、不适合并发载入、文档乱数修改。

HDFS为海量统计数据提供更多了不怕机械故障的储存,给大容量统计数据集的应用处理带来了很多便利。

HDFS架构设计理念以及优缺点

相关文章

发表评论
暂无评论
官方客服团队

为您解决烦忧 - 24小时在线 专业服务