一文理清：大数据、数据挖掘、数据分析、数理统计之间的关系

产品目录

一、如前所述大统计数据的统计数据预测形式

二、大统计数据预测短序参阅

三、运筹学与统计数据预测的差别与联络

四、大统计数据黄金时代企业该怎样产业布局，对个人该怎样选择？

一、如前所述大统计数据的统计数据预测形式

如前所述大统计数据的统计数据预测形式的方法论基础是统计数据预测和博戈达排序基本原理。大统计数据具有海量、加速、多元化和有用五个方面的重要特点，其海量优点使统计数据预测时不可能用DF93电脑完成而是须要几台电脑同时演算，也是简而言之的分布式系统演算。在大统计数据黄金时代，大统计数据技术须要化解两个痛点：其一海量统计数据在几台电脑上的储存；并有化解怎样对几台电脑上储存的统计数据展开排序预测。大统计数据控制技术的基本概念却是控制点、进行分类、主轴所推荐等统计数据预测演算法的内容，在如前所述大统计数据的统计数据预测形式中，有很多形式都是对旧有演算法的改良，将原来FPS实现的演算法换成几台电脑的博戈达排序。单纯蔡伯介，如前所述大统计数据的统计数据预测形式是预测辅助工具不一样的统计数据预测形式，有的是也再次加入了运筹学的价值观。

二、大统计数据预测短序参阅

1．Hadoop大统计数据自然生态网络平台

Hadoop 是一个能对大量统计数据展开分布式系统处置的应用软件架构。但是 Hadoop 是以一种可信、高效率、可伸缩式的形式展开处置的。Hadoop 是可信的，即使它假定排序原素和储存会失利，因而它保护数个组织工作统计数据复本，保证能特别针对失利的结点再次分布处置。Hadoop 是高效率的，即使它以博戈达的形式组织工作，通过博戈达处置大力推进处置速度。Hadoop 却是可伸缩式的，能处置 PB 级统计数据。此外，Hadoop 倚赖街道社区伺服器，因而它的生产成本比较低，其他人都可以使用。

2．Spark，大统计数据预测的“袖珍”

Spark 也是 Apache 基金会的开源项目，它由加州大学伯克利分校的实验室开发，是另外一种重要的博戈达排序系统。它在 Hadoop 的基础上展开了一些架构上的改良。Spark 与 Hadoop 最大的不同点在于，Hadoop 使用硬盘来储存统计数据，而 Spark 使用内存来储存统计数据，因而 Spark 可以提供超过Hadoop100 倍的演算速度。但是，由于内存断电后统计数据会丢失，Spark 不能用于处置须要长期保存的统计数据。目前 Spark 完成了大部分的统计数据预测演算法由FPS到分布式系统的改造，并提供了较方便的统计数据预测可视化界面。

3．Storm，实时大统计数据处置辅助工具

Storm 是 Twitter 主推的博戈达排序系统，它由 BackType 团队开发，是 Apache 基金会的孵化项目。它在 Hadoop 的基础上提供了实时演算的优点，可以实时地处置大统计数据流。不同于 Hadoop 和Spark，Storm 不展开统计数据的收集和储存组织工作，它直接通过网络实时地接收统计数据并且实时地处置统计数据，然后直接通过网络实时地传回结果。

三、运筹学与统计数据预测的差别与联络

1．运筹学与统计数据预测的联络

论和随机事件是统计学的核心方法论之一，统计预测中的抽样估计须要应用该方法论，而统计数据预测控制技术的朴素贝叶斯进行分类是这些统计方法论的发展和延伸。

有的是时候两者的一些形式还会出现混淆的情况，例如，主成分预测和回归预测。从严格意义上讲，这两种预测形式都属于运筹学预测形式，但在统计数据预测实战应用中也常常会用到这种形式，从这个角度讲，主成分预测和回归预测也是统计数据预测商业实战中常用的一种预测控制技术和统计数据处置控制技术。

2．数理统计与统计数据预测的差别

更普遍的观点认为，统计数据预测是运筹学的延伸和发展，如果一定要加以区分，它们又有哪些差别呢？统计数据预测在如下几个方面与运筹学存在比较明显的差异。运筹学的基础之其一概率论，在对统计数据进行运筹学预测时，预测人员常常须要对统计数据分布和变量间的关系作假定，确定用什么概率函数来描述变量间的关系，以及怎样检验参数的统计显著性。但是，在统计数据预测的应用中，预测人员不须要对统计数据分布做任何假定，统计数据挖掘中的演算法会自动寻找变量间的关系。因而，相对于海量、杂乱的统计数据，统计数据预测控制技术有明显的应用优势。

运筹学在预测中的应用常表现为一个或一组函数关系式，而统计数据预测在预测应用中的重点在于预测的结果，很多时候并不会从结果中产生明确的函数关系式，有时候甚至不知道到底是哪些变量在起作用，又是怎样起作用的。最典型的例子是“神经网络”挖掘控制技术，它里面的隐蔽层是一个“黑箱”，没有人能在所有的是情况下读懂里面的非线性函数是怎样对自变量展开组合的。在实践应用中，这种情况常会让习惯运筹学公式的预测师或者业务人员感到困惑，这也确实影响了模型在实践应用中的可理解性和可接受度。

在实践应用中，运筹学常须要预测人员先作假设或判断，然后利用统计数据预测控制技术来验证该假定是否成立。但是，在统计数据预测中，预测人员并不须要对统计数据的内在关系做任何假定或判断，而是会让挖掘辅助工具中的演算法自动去寻找统计数据中隐藏的关系或规律。两者的思维形式并不相同，这给统计数据预测带来了更灵活、更宽广的思路和舞台。

虽然上面详细阐述了运筹学与统计数据预测的差别，但是在企业的实践应用中，我们不应该硬性地把两者割裂开来，其实它们也无法割裂，没有哪个预测师会说：“我只用数据挖掘控制技术来预测”或者“我只用运筹学控制技术来预测”。正确的思路和形式应该是：特别针对具体的业务预测需求，先确定预测思路，然后根据这个预测思路去挑选和匹配合适的预测演算法、预测控制技术，而且一个具体的预测需求一般都会有两种以上不同的思路和演算法可以去探索，最后可以根据验证的效果和资源匹配等一系列因素展开综合权衡，从而决定最终的思路、演算法和化解方案。

四、大统计数据黄金时代企业该怎样产业布局，对个人该怎样选择？

统计数据预测师应对上述每种不同的统计数据预测形式都要了解，即使不同的统计数据预测形式适用的场景是不一样的，能化解的统计数据预测目标也是不一样的，例如生物行业用运筹学最多，电商行业用统计数据预测较多，当电商行业的统计数据量很大时，就要用如前所述大统计数据的统计数据预测演算法了。在学习具体的统计数据预测形式时，主要要了解其使用的场景，当你在做具体的统计数据预测时就知道选择哪一种预测形式了。另外，在选择统计数据预测形式时，不要热衷于高深的形式，“不管白猫黑猫，抓住老鼠是好猫”，要用最单纯形式把问题化解，有的是时候用最单纯的描述性统计形式能化解问题，就不要用统计数据预测演算法了。

对于是否使用大统计数据预测形式，这个须要看企业的性质和将来的发展方向，一般不是所有的是企业都具有展开企业的现在和未来做一个好的规划，看自己是否具有大统计数据预测的可能，如果有，则怎样实现从现有的是小统计数据预测向大统计数据预测转型，从人才到统计数据的准备，这些都须要有一个充分的思考过程才能确定。

如果你对个人想要：

系统学Hadoop、Spark大统计数据预测控制技术！

着重掌握电脑学习演算法与实际业务的结合！

为对个人长技、为企业增值！

但你却，经常想着怎样加速学习大统计数据？

如果你的企业却是：

不知道怎样统筹大统计数据部门组织工作的开展！

苦于海量统计数据的储存与统计数据价值的挖掘！

不懂得大统计数据怎样与业务结合展开建模！

但你却，经常思考企业统计数据怎样变现？

那么你是《CDA-Hadoop大统计数据预测周末班》第十期（北京3月25日开课/上海4月1日开课）邀请的人！短期集训，大统计数据利器全覆盖，CDA +Oracle双认证，offer任你挑！