甚么是统计数据预测?
统计数据预测(Data Mining)就是从大量的统计数据中,抽取暗藏在其中的,预先不知道的、但潜在性管用的关键信息的操作过程。统计数据预测的目标是创建一个决策模型,根据过去的行动统计数据来预测未来的犯罪行为。比如预测一家子公司的相同使用者对子公司商品的购买情况,从而预测出哪两类客户会对子公司的商品有兴趣。在讲求动态、竞争惨烈的关键信息时代,若能预先补齐消费者的犯罪行为模式,将是子公司买进的关键所在之一。统计数据预测是两门研究课题专业,它涉及了统计资料库,人工智慧,语言学,可视化等相同的学科专业和应用领域。
统计数据预测是统计资料库中知识发现(knowledge discovery in database, KDD)不可缺少的一部分,而KDD是将粗制的统计数据切换为管用关键信息的整个操作过程,该操作过程主要包括一系列切换关键步骤, 从统计数据的预处置到统计数据预测结果的后处置。
统计数据预测的起源地
源自相同学科专业的人类学家汇聚到一同,开始著手开发能处置相同统计数据 类型的更有效率的、可伸缩式的工具。那些工作都是创建在人类学家早先使用的方法论和演算法其内,而在统计数据预测应用领域势不可挡。特别地,统计数据预测利用了源自如下表所示许多应用领域的价值观:(1)源自语言学的样本、估计和状态参数;(2)人工智慧、可视化和机器学习的启发式可视化控制技术和学习理论。统计数据预测也迅速地采纳了源自其它应用领域的价值观,那些应用领域主要包括最佳化、变异计算、关键密码学、信号处置、可视化和自动提取。
许多其它应用领域也起著关键的支撑作用。统计资料库系统提供有效率的储存、索引和查询处置支持。来源于高效能(并行)计算的控制技术在处置海量统计数据集方面常常是关键的。分布式系统控制技术也能帮助处置海量统计数据,并且当统计数据不能集中到一同处置时更是非常关键。
KDD(Knowledge Discovery from Database)
统计数据清扫
消解噪音和不一致的统计数据;统计数据软件系统
多种统计管理工具能女团在一同;统计数据选择
从统计资料库中抽取与预测任务相关的统计数据;统计数据切换
通过汇整或涌进操作,把统计数据切换和统一成适宜挖掘的形式;统计数据预测
基本关键步骤,使用智能方法抽取统计数据模式;模式评估
根据某种兴趣度,识别代表知识的真正有趣的模式;知识表示
使用可视化和知识表示控制技术,向使用者提供挖掘的知识。统计数据预测方法论
业务理解(business understanding)
从商业角度理解项目的目标和要求,接着把那些理解知识通过理论预测转化为统计数据预测可操作的问题,制定实现目标的初步规划;统计数据理解(data understanding)
统计数据理解阶段开始于原始统计数据的收集,然后是熟悉统计数据、甄别统计数据质量问题、探索对统计数据的初步理解、发觉令人感兴趣的子集以形成对探索关键信息的假设;统计数据准备(data preparation)
统计数据准备阶段指从最初原始统计数据中未处置工作;可视化(modeling)
在此阶段,主要是选择和应用各种可视化控制技术。同时对它们的参数进行调优,以达到最优值。通常对同一个统计数据预测问题类型,会有多种可视化控制技术。许多控制技术对统计数据形式有特殊的要求,常常需要重新返回到统计数据准备阶段;模型评估(evaluation)
在模型部署发布前,需要从控制技术层面判断模型效果和检查创建模型的各个关键步骤,以及根据商业目标评估模型在实际商业场景中的实用性。此阶段关键目的是判断是否存在许多关键的商业问题仍未得到充分考虑;模型部署(deployment)
模型完成后,由模型使用者(客户)根据当时背景和目标完成情况,封装满足业务系统使用需求。统计数据预测任务
通常,统计数据预测任务分为下面两大类。
预测任务。那些任务的目标是根据其它属性的值,预测特定属性的值。被预测的属性一 般称目标变量(targetvariable)或因变量(dependentvariable), 而用来做预测的属性称说明变量(explanatoryvariable)或自变量(independentvariable)。描述任务。其目标是导出概括统计数据中潜在性联系的模式(相关、趋势、聚类、轨迹和异常)。本质上,描述性统计数据挖掘任务通常是探查性的,并且常常需要后处置控制技术验证和解释结果。预测可视化(predictivemodeling) 涉及以说明变量函数的方式为目标变量创建模型。有两类预测可视化任务:分类(classification),用于预测离散的目标变量;回归(regression),用于预测连续的目标变量。例如,预测一个Web使用者是否会在网上书店买书是分类任务,因为该目标变量是二值的,而预测某股票的未来价格则是回归任务,因为价格具有连续值属性。两项任务目标都是训练一个模型,使目标变量预测值与实际值之间的误差达到最小。预测可视化能用来确定顾客对商品促销活动的反应,预测地球生态系统的扰动,或根据检查结果判断病人是否患有某种疾病。
关联预测(association analysis) 用来发现描述统计数据中强关联特征的模式。所发现的模式通常用蕴涵规则或特征子集的形式表示。由于搜索空间是指数规模的,关联预测的目标是以有效率的方式抽取最有趣的模式。关联预测的应用主要包括找出具有相关功能的基因组、识别使用者一同访问的Web页面、 理解地球气候系统相同元素之间的联系等。
聚类预测(cluster analysis)旨在发现紧密相关的观测值组群,使得与属于相同簇的观测值相比, 属于同一簇的观测值相互之间尽可能类似。聚类可用来对相关的顾客分组、找出显著影响 地球气候的海洋区域以及压缩统计数据等。
异常检测(anomaly detection) 的任务是识别其特征显著相同于其它统计数据的观测值。这样的观测值称为异常点(anomaly)或离群点(outlier)。异常检测演算法的目标是发现真正的异常点,而避免错误地将正常的对象标注为异常点换言之,一个好的异常检测器必须具有高检测率和低误报率。异常检测的应用主要包括检测欺诈、网络攻击、疾病的不寻常模式、生态系统扰动等。