大数据科普系列(二) 如何处理大数据？

后面他们已经晓得了甚么是大统计数据，所以，怎样处置大统计数据呢？

他们有两种选择，一是向上收缩，即提升DF93笔记本电脑的硬体水平，比如说缓存不如他们加Coolpix，存储不如他们加硬碟，反应速度没用，他们换更低频的CPU，但这治标不治本，浑然不觉两个下限，而且成本过分高昂。还有一种形式是向外收缩，即三台笔记本电脑不如，他们用三台，还不如就继续加。“整体实力不如，红布来凑！”处置大统计数据是采用的第三种形式，即网络通讯软件产业。

甚么是网络通讯软件产业呢？说到底是利用N台笔记本电脑的力量（存储和计算能力），大家一起协同合写某一任务。这N台笔记本电脑就组成了两个网络通讯软件产业。

他们先来看看网络通讯存储的基本原理：

假定有两个很大的文档，大到1台笔记本电脑的硬碟拉不动，比如说硬碟是1T ，而那个文档大小是2T，所以他们可以把它切分为3大块或更多，每大块依次存储在1台笔记本电脑上：

这种，他们要加载原来的文档文本时，只需要把3台笔记本电脑上的3个文档块按浅蓝色的次序女团起来，就能获得原文档内容。这种虽说化解了存储的难题。但是倘若某一关键时刻，其中三台笔记本电脑当机了（比如说图中笔记本电脑2），所以他们就无法获得浅蓝色3个块了，原文档部分统计数据就遗失了，这就导致了统计数据的不安全。

所以，网络通讯系统是怎样化解前述问题的呢？标准答案是做输入输出存储：将每个统计数据块拷贝存储，然后将同两个块的相同存储依次存储在相同的笔记本电脑上，这种当某台笔记本电脑当机了，它上面所存储的统计数据块能在别的笔记本电脑上找到相同的存储，也能完备的还原成的原始统计数据。

当然，要想将文档还原成，他们还得晓得那个文档被分为了甚么样块、那些块的次序及那些统计数据块依次存放在甚么样笔记本电脑上。网络通讯软件产业是两个characterization构架，历史记录前述元统计数据信息的笔记本电脑叫作主结点（master）,而真正存储统计数据块的笔记本电脑叫作从结点（slave）。他们对网络通讯系统的随机存取都是通过主结点来协同完成的。

一句总结网络通讯存储基本原理：分散存储，输入输出存储。

接下来，他们再来看看网络通讯计算的基本原理：

考虑这种两个需求，倘若有1000个整数，要找出其中最大的那个数，常规形式是遍历这1000个数的数组，没难题！假定现在有1000亿个整数，要找出其中最大的那个数，那他们还是来遍历这1000亿个数的数组? 1000亿个整数占用缓存大概是400GB，要遍历数组，首先得有这么大的缓存！其次，考虑时间复杂度为O(n)，就算有所以大的缓存，遍历完这1000亿个数用的时间也会长的让你怀疑人生！

所以，他们换一种思路，倘若他们把这1000亿个数均分为1000份，所以每份大概是400MB，然后他们同时依次求出这1000份中的最大值，这是可行的。最后，他们只需要在找到这1000个数中的最大值，就找到了这1000亿个数中的最大值！