数据挖掘概念与技术(一):概念介绍

2023-06-01 0 389

1.1统计数据挖掘的基本概念

统计数据挖掘是两门具单学科专业,牵涉机器学习、建模、形式语言、语言学、统计资料库、高效能排序等数个应用领域。它从大批统计数据中辨认出商业价值重要信息的两个业务流程众所周知。科学知识辨认出操作过程主要包括统计数据清扫、统计数据软件系统、数据优先选择、统计数据转换、统计数据挖掘、商业模式评估结果、科学知识则表示。

1.2统计资料库和统计基础架构

不同之处:储存统计数据

不同之处:统计资料库主要就用作会话,统计基础架构主要就用作统计数据挖掘

统计资料库(Database)的特征是:

* 相较繁杂的表单内部结构,储存内部结构相较光滑,少输入输出统计数据。

* 读和写都有强化。

* 相较单纯的read/write query,至多促进作用作相较的小量统计数据。

统计基础架构(Datawarehouse)的特征是:

* 相较单纯的(Denormalized)表单内部结构,储存内部结构相较致密,多输入输出统计数据。

* 通常而已读强化。

* 相较繁杂的read query,至多促进作用作相较大批的统计数据(历史统计数据)。

1.3统计数据挖掘机能

特征化及对最终目标类统计数据的通常特征或特征的归纳

界定是将最终目标类统计数据第一类的通常特征与源自两个或几组对照类的第一类的通常特征展开较为。

关连是辨认出表明在取值统计数据分散时常一同出现的属性值前提的关连准则。

分类是指寻找两个描述和界定统计数据类或基本概念的模型(或函数)的操作过程,以便能够使用该模型来预测类标签未知的第一类类。它预测分类的、离散的、无序的标签。

回归是两个建模连续值函数的操作过程。它被用作预测缺失的或不可用的数值统计数据值,而不是(离散的)类标签。

聚类分析数据第一类,而不是查询对照已知的类标签。这些第一类基于最大化类内相似性和最小化类间相似性的原则展开聚集或分组。所形成的每个集群都可以被视为两个第一类类。聚类还可以促进分类学的形成,也就是说,将观察结果组织成将类似事件分组在一同的类的层次内部结构。

离群值分析是对异常值的分析,它们是不符合统计数据的通常行为或模型的第一类

1.4相似基本概念区别

界定和分类

界定与分类的区别在于,前者是将最终目标类统计数据第一类的通常特征与两个或几组对照类的第一类的通常特征展开较为,而后者是寻找几组描述和界定统计数据类或函数)的模型(或基本概念的操作过程,以便能够使用模型来预测类标签未知的第一类类。歧视和分类是相似的,因为它们都处理对类统计数据第一类的分析。

特征化和聚类

特征化与聚类的不同之处在于,前者是指对最终目标类统计数据的通常特征或特征的摘要,而后者处理统计数据第一类的分析而不查看已知的类标签。这对任务的相似之处在于,它们都处理了将相关的或与彼此相比相似性较高的第一类或统计数据分组在一起。

分类和回归

分类与回归的不同之处在于,前者预测分类的(离散的、无序的)标签,而后者预测缺失或不可用,通常是数值统计数据值。这对任务很相似,因为它们都是预测的工具。

相关文章

发表评论
暂无评论
官方客服团队

为您解决烦忧 - 24小时在线 专业服务