统计数据预测就从大量的、不完全的、有噪音的、模糊不清的、乱数的统计数据中,抽取暗含在其中的、人们事先不晓得的但又是潜在有用的信息和科学知识的过程。统计数据预测的各项任务从统计数据集中辨认出商业模式,可以辨认出的商业模式有许多种相同,按功能可以分成两类:全面性(Predictive)商业模式和叙述性(Descriptive)商业模式。在应用中往往依照商业模式的实际作用行业龙头为以下几种:展开分类,估值,预测,关联性预测,字符串,时间字符串,叙述和建模等。
统计数据发掘牵涉的学科应用领域和控制技术许多,有多种相同展开分类。依照发掘各项任务分,可分成展开分类或预测数学模型辨认出、统计数据总结、控制点、关连准则辨认出、字符串商业模式辨认出、倚赖关系或倚赖数学模型辨认出、异常和趋势辨认出之类;依照发掘对象分,有关系统计数据库、程序语言资料库、空间资料库、分词资料库、文档统计管理工具、多媒体资料库、同质资料库、财产资料库以及科技日报Web;依照发掘方式分,可粗分成:机器自学方式、统计统计数据方式、数学数学模型方式和资料库方式。机器自学中,可行业龙头为:概括自学方式(计算机程序、准则概括等)、如前所述实例自学、启发式等。统计统计数据方式中,可行业龙头为:重回预测(多元重回、自重回等)、辨别预测(可计算性辨别、奥斯特瓦尔德辨别、非参数辨别等)、控制点预测(系统控制点、动态聚类等)、开拓性预测(取在预测法、相关预测法等)等。数学数学模型方式中,可行业龙头为:前向数学数学模型(BP演算法等)、自组织机构数学数学模型(自组织机构特征态射、竞争自学等)等。资料库方式主要是布季夫统计数据预测或OLAP方式,另外还有面向全国特性的概括方式之类。
统计数据预测的控制技术有许多种相同,按照相同的展开分类有相同的展开分类。下面着重于谈谈统计数据预测中常见的一些控制技术:统计统计数据控制技术,关连准则,如前所述历史的预测,启发式,聚集检测,连接预测,计算机程序,神经网络,萨温齐,点积,重回预测,差别预测,概念叙述等八种常见的统计数据预测的控制技术。
1、统计统计数据控制技术
统计数据预测牵涉的科学应用领域和控制技术许多,如统计统计数据控制技术。统计统计数据控制技术对统计数据集展开发掘的主要思想是:统计统计数据的方式对取值的统计数据集合假设了一个分布或者概率数学模型(例如一个概率密度函数)然后依照数学模型采用相应的方式来展开发掘。
2、关连准则
统计数据关连是资料库中存有的一类重要的可被辨认出的科学知识。若两个或多个变量的值域之I司存有某种规律,就称为关连。关连可分成简单关连、排程关连、自然法则关连。关连预测的目的是找寻资料库中暗藏的关连网。有时无人知晓资料库中统计数据的关连函数,即使晓得也是不确定的,因此关连预测生成的准则带有可信性。
3、如前所述历史的MBR(Memory-based Reasoning)预测
先依照经验科学知识寻找相似的情况,然后将这些情况的信息应用于当前的例子中。这个就是MBR(Memory Based Reasoning)的本质。MBR首先寻找和新记录相似的邻居,然后利用这些邻居对新统计数据展开展开分类和估值。使用MBR有三个主要问题,寻找确定的历史统计数据;决定表示历史统计数据的最有效的方式;决定距离函数、联合函数和邻居的数量。
4、启发式GA(Genetic Algorithms)
如前所述进化理论,并采用遗传结合、遗传变异、以及自然选择等设计方式的优化控制技术。主要思想是:依照适者生存的原则,形成由当前群体中最适合的准则组成新的群体,以及这些准则的后代。典型情况下,准则的适合度(Fitness)用它对训练样本集的展开分类准确率评估。
5、聚集检测
将物理或抽象对象的集合分组成为由类似的对象组成的多个类的过程被称为控制点。由控制点所生成的簇是一组统计数据对象的集合,这些对象与同一个簇中的对象彼此相似,与其它簇中的对象相异。相异度是依照叙述对象的属眭值来计算的,距离是经常采用的度量方式。
6、连接预测
连接预测,Link analysis,它的基本理论是图论。图论的思想是寻找一个可以得出好结果但不是完美结果的演算法,而不是去寻找完美的解的演算法。连接预测就是运用了这样的思想:不完美的结果如果是可行的,那么这样的预测就是一个好的预测。利用连接预测,可以从一些用户的行为中预测出一些商业模式;同时将产生的概念应用于更广的用户群体中。
7、计算机程序
计算机程序提供了一种展示类似在什么条件下会得到什么值这类准则的方式。
8、数学数学模型
在结构上,可以把一个数学数学模型划分成输入层、输出层和暗含层。输入层的每个节点对应—个个的预测变量。输出层的节点对应目标变量,可有多个。在输入层和输出层之间是暗含层(对数学数学模型使用者来说不可见),暗含层的层数和每层节点的个数决定了数学数学模型的复杂度。
除了输入层的节点,数学数学模型的每个节点都与许多它前面的节点(称为此节点的输入节点)连接在一起,每个连接对应一个权重Wxy,此节点的值就是通过它所有输入节点的值与对应连接权重乘积的和作为—个函数的输入而得到,我们把这个函数称为活动函数或挤压函数。
9、萨温齐
萨温齐理论如前所述取值训练统计数据内部的等价类的建立。形成等价类的所有统计数据样本是不加区分的,即对于叙述统计数据的特性,这些样本是等价的。取值现实世界统计数据,通常有些类不能被可用的特性区分。萨温齐就是用来近似或粗略地定义这种类。
10、点积
点积理论将模糊不清逻辑引入统计数据预测展开分类系统,允许定义“模糊不清”域值或边界。模糊不清逻辑使用0.0和1.0之间的真值表示一个特定的值是一个取值成员的程度,而不是用类或集合的精确截断。模糊不清逻辑提供了在高抽象层处理的便利。
11、重回预测
重回预测分成线性重回、多元重回和非线性同归。在线性重回中,统计数据用直线建模,多元重回是线性重回的扩展,牵涉多个预测变量。非线性重回是在基本线性数学模型上添加多项式项形成非线性同门数学模型。
12、差别预测
差别预测的目的是试图辨认出统计数据中的异常情况,如噪音统计数据,欺诈统计数据等异常统计数据,从而获得有用信息。
13、概念叙述
概念叙述就是对某类对象的内涵展开叙述,并概括这类对象的有关特征。概念叙述分成特征性叙述和区别性叙述,前者叙述某类对象的共同特征,后者叙述相同类对象之间的区别,生成一个类的特征性叙述只牵涉该类对象中所有对象的共性。
由于人们急切需要将存有于资料库和其他信息库中的统计数据转化为有用的科学知识,因而统计数据预测被认为是一门新兴的、非常重要的、具有广阔应用前景和富有挑战性的研究应用领域,并应起了众多学科(如资料库、人工智能、统计统计数据学、统计数据仓库、在线预测处理、专家系统、统计数据建模、机器自学、信息检索、数学数学模型、商业模式识别、高性能计算机等)研究者的广泛注意。
作为一门新兴的学科,统计数据预测是由上述学科相互交叉、相互融合而形成的。随着统计数据预测的进一步发展,它必然会带给用户更大的利益。
一起携手,引领人工智能的未来