统计数据预测
统计数据预测的表述
统计数据预测是指从统计资料库的大批统计数据中阐明出暗含的、早先未明的并有潜在性商业价值的重要信息的非理想操作过程。
统计数据预测是一类重大决策全力支持操作过程,它主要就如前所述人工智慧、机器自学、建模、语言学、统计资料库、建模控制技术等,度智能化地预测民营企业的统计数据,作出概括性的逻辑推理,由此发掘出潜在性的商业模式,协助重大制定者修正经营策略,增加信用风险,作出恰当的重大决策。
1.控制技术上的表述
统计数据预测(Data Mining)就从大批的、不全然的、有噪音的、模糊不清的、乱数的前述应用领域统计数据中,抽出暗含在其中的、现代人预先不知道的、但又是潜在性管用的重要信息和科学知识的操作过程。
这个表述包括顶上涵义:统计管理工具要是真实世界的、大批的、含噪音的;辨认出的是使用者钟爱的科学知识;发现的科学知识要可拒绝接受、可认知、可利用;并不明确要求辨认出放之四方星斗的科学知识,仅全力支持某一的辨认出问题。
2.商业性视角的表述
统计数据预测是一类捷伊商业性重要数据处置控制技术,其主要就特征是对商业性统计资料库中的大批销售业务统计数据展开抽出、切换、分析和其它数学模型化处置,由此抽出远距商业性重大决策的决定性统计数据。
因此,统计数据预测可以叙述为:按民营企业原先销售业务最终目标,对大批的民营企业统计数据展开积极探索和预测,阐明暗藏的、未明的或校正未知的规律,并更进一步将其数学模型化的一流有效率的方式。
统计数据预测工作业务流程
1.确定销售业务对象
清晰地表述出销售业务问题,认清统计数据预测的目的是统计数据预测的重要一步.挖掘的最后结构是不可预测的,但要积极探索的问题应是有预见的,为了统计数据预测而统计数据预测则带有盲目性,是不会成功的。
2.统计数据准备
1)、统计数据的选择
搜索所有与销售业务对象有关的内部和外部统计数据重要信息,并由此选择出适用于统计数据预测应用领域的统计数据.
2)、统计数据的预处置
研究统计数据的质量,为更进一步的预测作准备.并确定将要展开的挖掘操作的类型。
3)、统计数据的切换
将统计数据切换成一个预测数学模型.这个预测数学模型是针对挖掘算法建立的.建立一个真正适合挖掘算法的预测数学模型是统计数据预测成功的关键。
3.统计数据预测
对所得到的经过切换的统计数据展开挖掘.除了完善从选择合适的挖掘算法外,其余一切工作都能自动地完成。
4.结果预测
解释并评估结果.其使用的预测方式一般应作统计数据预测操作而定,通常会用到建模控制技术。
5.科学知识的同化
将预测所得到的科学知识集成到销售业务重要信息系统的组织结构中去。
机器自学(Machine Learning)
机器自学的表述
机器自学领域知名学者Tom M.Mitchell曾给机器自学做如下表述:
如果计算机程序针对某类任务T的性能(用P来衡量)能通过经验E来自我改善,则认为关于T和P,程序对E展开了自学。
机器自学的核心是“使用算法解析统计数据,由此自学,然后对新统计数据作出决定或预测”。
机器自学的概念就是通过输入海量训练统计数据对数学模型展开训练,使数学模型掌握统计数据所蕴含的潜在性规律,进而对新输入的统计数据展开准确的分类或预测。
机器自学的分类
根据是否在人类的监督下展开自学这个问题,机器自学任务区分如下:
监督自学:监督自学算法依赖具有标签的训练统计数据来建立数学数学模型。例如,如果任务是鉴定图片是否包含某种实体,那么训练集的图片中就应该同时存在包含与不包含该实体的图片,同时,每张图片需标注是否包含该实体的标签。根据标签的数值特征(连续、离散),监督自学又可以分为分类问题与回归问题。
半监督自学:在某些情况下,并不是所有的输入统计数据集都被有效标注了,即训练集中包含已标注的样本和未标注的样本。前述上未标注样本与已标注样本拥有同样的分布,在训练时若能利用这一点,则会很有协助。
无监督自学:无监督自学算法全然利用不带标签的训练统计数据去训练一个数学模型。无监督自学用于积极探索统计数据的分布,例如将点聚类等。无监督自学可用于辨认出统计数据的潜在性商业模式,并将统计数据按组归类,还可用于特征自学和统计数据降维等。
强化自学:在动态环境中以正或负强化的形式给出反馈,并用于自动驾驶车辆,或者自学与人类对手玩游戏等。
机器自学是人工智慧的一个分支,也是人工智慧的一类实现方式。
广度自学
广度自学的表述
广度自学是机器自学研究中的一个新领域,其动机在于建立、模拟人脑展开预测自学的神经网络,它模仿人脑的机制来解释统计数据,比如图像,声音和文本等。
广度自学(DL)是机器自学中一类如前所述对统计数据展开表征自学的方式,是一类能够模拟出人脑的神经结构的机器自学方式。广度自学起源于人工神经网络,而人工神经网络ANN(ArTIficial Neural Network)从重要数据处置视角对人脑神经元网络展开抽象,建立某种简单数学模型,按不同的连接方式组成不同的网络,简称为神经网络或类神经网络。因此,广度自学又叫深层神经网络DNN(Deep Neural Networks),从之前的人工神经网络ANN数学模型发展而来的。
广度自学的控制技术原理
广度自学的概念就源于人工神经网络的研究,含多隐层的多层感知器就是一类广度自学结构。广度自学通过组合低层特征形成更加抽象的高层表示属性类别或特征,以辨认出统计数据的分布式特征表示。
系统是用于模拟生物大脑自身神经网络的基本结构,以便计算机能够执行某一的任务。
普通的神经网络可能只有几层,广度自学可以达到十几层。广度自学中的广度二字也代表了神经网络的层数。现在流行的广度自学网络结构有”CNN(卷积神经网络)、RNN(循环神经网络)、DNN(广度神经网络)的等。现在流行的广度自学框架有MXnet,tensorflow,caffe等,而在这些框架之上(或许不太准确),还有PyTorch,Keras等。
统计数据预测、机器自学、广度自学之间的差别与联系
统计数据预测试图从海量统计数据中找出管用的科学知识,而机器自学是统计数据预测的重要工具。
统计数据预测可以视为机器自学和统计资料库的交叉,它主要就利用机器自学界提供的控制技术来预测海量统计数据,利用统计资料库界提供的控制技术来管理海量统计数据。
广度自学是机器自学的一个子集,可以看作是实现机器自学的一类方式,而机器自学是实现人工智慧的一类途径,也就是说,广度自学包含于人工智慧。
理论上深度自学属于机器自学的一部分,但是机器自学和广度自学也有一些主要就差别:
1.统计数据依赖:广度自学必需大统计数据量,当统计数据量较小时,广度自学不合适;
2. 硬件依赖:为保证算力,广度自学非常依赖于高端硬件设施,通常都明确要求有GPU环境参与运算;
3.特征工程
4. 解决方案:机器自学类似于分治法,而广度自学则是一步到位、提供端到端的实时解决方案,虽然其数学模型训练的时长通常高于机器自学。
总结:统计数据预测从海量统计数据中找出管用的科学知识,可以视为机器自学和统计资料库的交叉;广度自学模仿人脑的机制来解释统计数据,是机器自学的一个子集,可以看作是实现机器自学的一类方式。
除了统计数据预测、机器自学、广度自学,更多人工智慧领域的相关概念之间的关系都可以用下图表示: