后面他们已经晓得了甚么是大统计数据,所以,怎样处置大统计数据呢?
他们有两种选择,一是向上收缩,即提升DF93笔记本电脑的硬体水平,比如说缓存不如他们加Coolpix,存储不如他们加硬碟,反应速度没用,他们换更低频的CPU,但这治标不治本,浑然不觉两个下限,而且成本过分高昂。还有一种形式是向外收缩,即三台笔记本电脑不如,他们用三台,还不如就继续加。“整体实力不如,红布来凑!”处置大统计数据是采用的第三种形式,即网络通讯软件产业。
甚么是网络通讯软件产业呢?说到底是利用N台笔记本电脑的力量(存储和计算能力),大家一起协同合写某一任务。这N台笔记本电脑就组成了两个网络通讯软件产业。
他们先来看看网络通讯存储的基本原理:
假定有两个很大的文档,大到1台笔记本电脑的硬碟拉不动,比如说硬碟是1T ,而那个文档大小是2T,所以他们可以把它切分为3大块或更多,每大块依次存储在1台笔记本电脑上:
这种,他们要加载原来的文档文本时,只需要把3台笔记本电脑上的3个文档块按浅蓝色的次序女团起来,就能获得原文档内容。这种虽说化解了存储的难题。但是倘若某一关键时刻,其中三台笔记本电脑当机了(比如说图中笔记本电脑2),所以他们就无法获得浅蓝色3个块了,原文档部分统计数据就遗失了,这就导致了统计数据的不安全。
所以,网络通讯系统是怎样化解前述问题的呢?标准答案是做输入输出存储:将每个统计数据块拷贝存储,然后将同两个块的相同存储依次存储在相同的笔记本电脑上,这种当某台笔记本电脑当机了,它上面所存储的统计数据块能在别的笔记本电脑上找到相同的存储,也能完备的还原成的原始统计数据。
当然,要想将文档还原成,他们还得晓得那个文档被分为了甚么样块、那些块的次序及那些统计数据块依次存放在甚么样笔记本电脑上。网络通讯软件产业是两个characterization构架,历史记录前述元统计数据信息的笔记本电脑叫作主结点(master),而真正存储统计数据块的笔记本电脑叫作从结点(slave)。他们对网络通讯系统的随机存取都是通过主结点来协同完成的。
一句总结网络通讯存储基本原理:分散存储,输入输出存储。
接下来,他们再来看看网络通讯计算的基本原理:
考虑这种两个需求,倘若有1000个整数,要找出其中最大的那个数,常规形式是遍历这1000个数的数组,没难题!假定现在有1000亿个整数,要找出其中最大的那个数,那他们还是来遍历这1000亿个数的数组? 1000亿个整数占用缓存大概是400GB,要遍历数组,首先得有这么大的缓存!其次,考虑时间复杂度为O(n),就算有所以大的缓存,遍历完这1000亿个数用的时间也会长的让你怀疑人生!
所以,他们换一种思路,倘若他们把这1000亿个数均分为1000份,所以每份大概是400MB,然后他们同时依次求出这1000份中的最大值,这是可行的。最后,他们只需要在找到这1000个数中的最大值,就找到了这1000亿个数中的最大值!
一句话总结网络通讯计算基本原理:大而化小,分而治之、并行处置,汇总结果。
其实,古人早就用到了大统计数据的计算思路:有图有真相!!!
注意:本文最早由东方瑞通高级讲师朱明虎老师发表于讲师原创专区,转载请注明出处!