数据挖掘技术简述 - 网站源码_资源分享

一、统计数据分析的产业发展心路历程及产业发展现况

统计数据分析源于从资料库中辨认出科学知识(简称KDD)，它首度出现在1989年 8月在芝加哥举办的第十二届国际性联合人工智慧研讨会上．为了别列卡，在 1996年出版的总结该领域重大进展的权威性论集《科学知识辨认出与统计数据重大进展》中， Fayyad，Piatetsky-Shapiro and Smyth得出了KDD和统计数据分析的最新表述，将两者加以界定．

KDD的表述为：KDD是从统计数据中鉴别有效的、新奇的、潜在性管用的、最终可理解的商业模式的操作过程．

统计数据分析的表述为：统计数据分析是KDD中通过某一的演算法在可接受的计算工作效率限制内聚合某一商业模式的两个关键步骤．

由此看来，整个KDD操作过程是两个以科学知识普通用户为服务中心、交互式的积极探索操作过程．统计数据分析只是资料库中科学知识辨认出的两个关键步骤，但又是最重要的一步．因此,往往可以不加区别地使用KDD和统计数据分析．一般在科学研究应用领域领域称作资料库中的科学知识辨认出，在工程应用领域领域则称作统计数据分析．

1989年举办了第二届学术报告会前，1991、1993、1994年又连续举办了KDD 学术报告会；1995年8月，在澳大利亚的Montreal，举行了第二届科学知识辨认出和统计数据挖掘的国际性研讨会；亚洲地区于1997年在马来西亚举办了第二届亚太地区科学知识辨认出和统计数据分析的国际性会议(RAKDD，97)；西欧也于1998年举行了第二届西欧科学知识辨认出和统计数据分析的研讨会．

迄今，对关系资料库和外交事务资料库展开统计数据分析和科学知识辨认出的科学研究己经取得了一定的重大进展，最有影响的辨认出演算法有：澳大利亚Simon Fraser大学J．Han教授的概念树提升演算法、IBM的R．Agrawal的关连规则演算法、澳大利亚的J．R．Quinlan教授的分类演算法、密西根华盛顿大学Erick Goodman的遗传演算法等．特别要指出的是，统计数据分析控制技术从一开始就是面向全国应用领域的．IBM、GTE、SAS、 Microsoft，Silicon Graphics、Integral Solutions、Thinking Machines，Data Mind、 Urban Science、Ab Tech、Unica Technologies等公司，相继开发出一些新奇的KDDOmate和蓝本系统，如市场分析用的Behavior Scan、Explorer、MDT (Management Discovery T001)，金融投资应用领域领域的Stock Selector、AI(Automated Investor)，诈欺预警系统用的Falcon、FAIS、Clone detector等．各种新奇的统计数据挖掘工具不断涌现．

与国外相比，亚洲地区对KDD的科学研究稍早，没有形成整体力量，1993年国家自然科学基金首度支持该应用领域领域的科学研究项目．目前，亚洲地区的许多科研机构和院校开展了科学知识辨认出的基本原理及其应用领域科学研究，如清华大学、中国科学院体系结构科学研究院、海军第三科学研究院、海军装备深入研究服务中心等．其中北京研究课题科学研究院对模糊不清方法在科学知识辨认出中的应用领域展开了较深入的科学研究，清华大学正从事于统计数据正方体拓扑的科学研究，山东大学、哈尔滨工业大学、清华大学、浙江大学、中国科技大学、中国科学院数学科学研究院、吉林大学等单位展开了对关连规则挖掘演算法的优化及相关应用领域领域的科学研究，取得了一定的成果，南京大学、四川联合大学和上海交通大学等单位探讨、科学研究了非结构化统计数据的科学知识辨认出以及Web统计数据分析．

总之，当前统计数据分析与科学知识辨认出科学研究与开发的总体水平相当于资料库控制技术在七十年代所处的地位．迫切需要类似于关系商业模式、DBMS系统和SQL查询语言等理论和方法的指导，才能使KDD的应用领域得以普遍推广．

二、统计数据分析的任务

统计数据分析功能用于指定统计数据分析任务中要找的商业模式类型．统计数据挖掘任务一般可以分为两类：描述和预测．描述性挖掘任务刻画资料库中统计数据的一般特性，而预测性挖掘任务则在当前统计数据上展开推断，以展开预测．在很多情况，用户并不知道什么样的商业模式是有趣的，因此可能想积极探索多种不同的商业模式，以从中选择出自己感兴趣的商业模式．这就要求统计数据分析系统应该能够挖掘多种类型的商业模式，以适应不同的需求．此外，统计数据分析系统应该能够辨认出各种粒度(即不同的抽象层)的商业模式，应当允许用户得出提示，指导或聚焦有趣商业模式的搜索．

统计数据分析的功能以及可以辨认出的商业模式类型有：类／概念描述、关连分析、分类和预测、聚类分析、孤立点分析和演变分析．

(1)类概念描述

统计数据可以与类或概念相关连．用汇总的、简洁的、精确的方式描述每个类和概念可能是管用的．这种类或概念的描述称为类／概念描述．这种描述可以通过

以下方法得到：

●统计数据特征化：是目标类统计数据的一般特征或特性的汇总．

●统计数据界定：将目标类对象的一般特性与两个或多个对比类对象的一般特性比较．

●统计数据特征化和界定：同时应用领域统计数据特征化和统计数据界定展开描述．

(2)关连分析

关连分析用于辨认出关连规则，关连规则描述了给定统计数据集中的项之间的有趣联系．关连分析广泛应用领域于购物篮或外交事务统计数据分析．从大量商务外交事务记录中辨认出有趣的关连关系，可以帮助许多商务决策的制定，如分类设计、交叉购物和贱卖分析等．

(3)分类和预测

分类是找出描述并界定统计数据类或概念的模型的操作过程，以便能够使用模型预测类标号未知的对象类．预测是构造和使用模型评估无标号样本类，或评估给定样本可能具有的属性值或值区间．分类和预测之间的区别在于，分类是预测类标号(或离散值)，而预测是建立连续值函数模型．例如，可以建立两个分类模型，对银行贷款的安全或风险展开分类；同时可以建立预测模型，给定潜在性顾客的收入和职业，预测他们在计算机设备上的花费．

(4)聚类分析

聚类将统计数据对象分组成为多个类或簇，在同两个簇中的对象之间具有较高的相似度，而不同簇中的对象差别较大．与分类不同的是，它要划分的类是未知的．

(5)孤立点分析

在资料库中经常存在一些统计数据对象，它们不符合统计数据的一般模型．这样的统计数据对象被称为孤立点，它们与统计数据的其他的部分不同或不一致．孤立点可能是度量或执行错误所导致的．例如，资料库记录中有一些人的年龄是-999，这可能是这些人年龄没有被记录，而系统给未记录的年龄的缺省值就是-999．孤立点也可能是固有的统计数据变异后的结果．例如，两个公司总裁的薪水可能远远高于其他职员的薪水，他的薪水就成为了两个孤立点．在许多时候，孤立点被视为噪声或遗产而被丢弃，但是，在一些应用领域中，孤立点可能会很管用．例如，在医疗分析中，某些对多种治疗方式的不寻常的反应统计数据可能成为孤立点，但是这些统计数据对于治疗却非常重要．对孤立点统计数据展开分析称为孤立点分析．

(6)演变分析

统计数据演变分析描述行为随时间变化的对象的规律或趋势，并对其建模．这种分析可能包括时间相关统计数据的特征化、界定、关连、分类或聚类，但是它的不同特点包括时间序列统计数据分析、序列或周期商业模式匹配和基于类似性的统计数据分析．

三、统计数据分析的操作过程

统计数据分析指的是从统计数据准备到结果分析的两个完整的操作过程，该操作过程从大量数据中挖掘先前未知的、有效的、可使用的信息，并使用这些信息做出决策或丰富科学知识．统计数据分析的一般关键步骤如下图所示．

统计数据分析操作过程

(1)确定业务对象．在开始统计数据分析之前最基础的就是理解统计数据和实际的业务问题，在这个基础之上提出问题，对目标有明确的表述．认清统计数据分析的目的是统计数据分析的重要一步，因此必须清晰地表述出业务问题．挖掘的最后结果是不可预测的，但对要积极探索的问题应是有预见的，为了统计数据分析而统计数据分析则带有盲目性，是不会成功的。

(2)统计数据准备．统计数据准备是保证统计数据分析得以成功的先决条件，统计数据准备在整个统计数据分析操作过程中有大量的工作量，大约是整个统计数据分析工作量的60％．统计数据准备包括统计数据选择、统计数据预处理和统计数据的转换。

●数

●统计数据的预处理．由于统计数据可能是不完全的、有噪声的、随机的，有复杂的统计数据结构，统计数据预处理就要对统计数据展开初步的整理，清洗不完全的统计数据，为进一步的分析做准备，并确定将要展开的挖掘操作的类型．

●统计数据的转换．统计数据的转换是根据统计数据分析的目标和统计数据的特征，选择合适的模型，这个模型是针对挖掘演算法建立的．建立两个真正适合挖掘演算法的分析模型是统计数据分析成功的关键．

(3)统计数据分析．统计数据分析就是对所得到的经过转化的统计数据展开挖掘，除了选择合适的挖掘演算法之外，其余工作应该能自动完成．

(4)结果分析．对挖掘的结果展开解释并评估．其使用的分析方法一般应根据统计数据分析的操作而定，目前通常会用到可视化控制技术。

(5)科学知识的同化．科学知识的同化就是将分析所得到的科学知识集成到业务信息系统的组织结构中去．

四、统计数据分析的方法

统计数据分析大量的借鉴了机器学习和统计学中的控制技术，这些控制技术对于有效的展开统计数据分析是至关重要的．统计数据分析的常用控制技术有：

(1)神经网络

神经网络是最常用的统计数据分析控制技术之一，它从结构上模仿生物神经网络，是一种通过训练来学习的非线性预测模型．它类似于人类大脑重复学习的方法，其本质就是输入信号、结点、输出信号的集合，首先用训练集和实例对它展开训练，这个操作过程叫做学习．学习结束后，新的商业模式就可以提交给这个网络．神经网络会根据训练得到的经验对新的统计数据展开分析，完成分类、聚类、特征开采等多种统计数据任务．

(2)决策树

这种控制技术用树形结构来表示决策集合．这些决策集合通过对统计数据集的分类产生规则．其典型的应用领域是分类规则的挖掘．建立决策树的操作过程可以递归地实现．首先选择最大信息量的属性，建立决策树的根结点，然后再根据该属性的不同取值建立树的分枝结点．这样就把整个数据集分成了几个子集．在每个分枝子集中重复建树的下层结点和分枝的操作过程，即可建立决策树．国际性上最有影响和最早的决策树方法是1986年J．Ross Quinlan 提出ID3方法，它对越大的资料库效果越好．在ID3方法的基础上，后人又产业发展了各种决策树方法，包括非常流行的C4.5演算法、C5.0演算法及CHAID演算法等．

(3)遗传演算法

遗传演算法是一种基于生物进化操作过程的组合优化方法，它基于生物进化的概念设计了一系列的操作过程来达到优化的目的．这些操作过程有基因组合、交叉、变异和自然选择．它根据适者生存的原则模拟自然界的生命进化机制，形成当前群体最适合的规则组成新的群体，以及这些规则的后代．该演算法擅长于统计数据聚类，通过事件上和空间上的类比，可以把大量繁杂的信息统计数据展开系统化、条理化，从而找出统计数据之间的内在关系，得出管用的概念和商业模式，再建立统计数据商业模式时，将遗传演算法与神经网络相结合，可以更好地提高模型的适应性．

(4)最邻近控制技术

这种控制技术通过K个最与之相近的历史记录的组合来鉴别新的记录．有时也称这种控制技术为K-最近邻方法．这种控制技术可以用在聚类、偏差分析等挖掘任务中．

(5)贝叶斯网络

贝叶斯网络是建立在对统计数据展开统计处理基础上的方法，将不确定事件通过网络连接起来，可以对于其他相关事件的结果展开预测，其网络变量可以是可见的，也可以隐藏在训练样本中．贝叶斯网络具有分类、聚类、预测和因果关系分析的功能，其优点是易于理解，预测效果较好，借助先验信息，先验信息具有时效特征，在统计数据统计中，往往旧信息太多，而旧信息的映射效果会随着时间推移而逐渐降低，这一点和加权有点类似。缺点是对发生频率很低的事件预测效果不好．贝叶斯网络在医学和制造业等应用领域领域的应用领域具有较好的效果．

(6)概念树方法

对资料库中的记录的属性字段按归类形式展开抽象，建立起来的层次结构称为概念树．利用概念树提升的方法可以大大减少和浓缩资料库中的记录．将多个属性字段展开概念树提升，将得到高度概括的科学知识基表，再将其转化成规则．一般采用概念树的方法对资料库展开预处理．

(7)粗糙集理论和方法

粗糙集理论是一种科学研究不精确、不确定性科学知识的数学工具，这一方法在统计数据分析中具有重要的作用，通常处理含糊性和不确定的问题，辨认出不准确统计数据或噪音统计数据内在的结构关系，可用于特征的约简和相关分析中．

此外，还有许多统计数据分析控制技术，如统计分析、公式辨认出、归纳逻辑程序等等．

五、统计数据分析面临的困难与挑战

尽管取得了许多重大进展，统计数据分析仍面临着许多困难与挑战．

(1)源自于资料库本身，现实世界资料库中的统计数据是动态的且数量庞大，有时统计数据是不完全的，存在噪音，不确定性，信息丢失，信息冗余，统计数据分布稀疏等问题．

(2)统计数据分析控制技术与某一统计数据存储类型的适应问题．资料库类型多样，不同的统计数据存储方式会影响统计数据分析的具体实现机制、目标定位、控制技术有效性等．比如适用于关系资料库的演算法未必适用于面向全国对象资料库．指望一种通用的应用领域商业模式适合所有的统计数据存储方式来辨认出有效科学知识是不现实的．因此，针对不同统计数据存储类型的特点，展开针对性科学研究是目前流行而且也是将来一段时间所必须面对的问题．

(3)科学知识的表示形式．它包括如何对挖掘到的科学知识展开有效的表示，使人们容易理解．比如如何对统计数据展开可视化，推动人们主动地从中辨认出科学知识．可视化要求已经成为目前信息处理系统的必不可少的控制技术．对于两个统计数据分析系统来说，它更是重要的．可视化挖掘除了要和良好的交互式控制技术结合外，还必须在挖掘结果或科学知识商业模式的可视化、挖掘操作过程的可视化以及可视化指导用户挖掘等方面展开积极探索和实践．因此科学知识表示的深入科学研究将是统计数据分析新奇化的两个重要关键步骤．

(4)目前的统计数据分析系统还不尽如人意，人们还不能像关系统计数据库系统那样调用SQL语言就能快速查询到自己想要的东西．虽然经过多年的积极探索，统计数据分析系统的基本构架和操作过程已经趋于明朗，但是受到应用领域应用领域领域、挖掘统计数据类型以及科学知识表达商业模式等的影响，在具体的实现机制、控制技术路线以及各阶段或部件(如统计数据清洗、科学知识形成、商业模式评估等)的功能定位等方面仍需细化和深入科学研究．由于统计数据分析是在大量的源统计数据集中辨认出潜在性的、事先并不知道的科学知识，因此和用户交互式展开积极探索性挖掘是必然的．这种交互可能发生在统计数据分析的各个不同阶段，从不同角度或不同粒度展开交互．所以良好的交互式挖掘(Interaction Mining) 也是统计数据分析系统成功的前提．

(5)现有的理论和演算法本身还有待产业发展完善．像定性定量转换、不确定性推理等一些根本性的问题还没有得到很好的解决．同时为了有效地从资料库的大量统计数据中提取信息，统计数据分析演算法必须是有效的和可伸缩的．换句话说，对于大型资料库，统计数据分析演算法的运行时间必须是可预计的和可接受的．所以需要产业发展高效的统计数据分析演算法．

另外统计数据分析系统与实际应用领域结合得还不够．除了经典的“啤酒”与“尿布”外，还没有太多统计数据分析成功的范例．因此，统计数据分析与其他控制技术特别是统计数据仓库控制技术的结合将是今后两个重要的产业发展方向．