下栽地止:https://www.itwangzi.cn/2571.html
控制点或控制点分析是无监督管理自学难题。它一般来说被用作统计数据数据挖掘控制技术,用作辨认出统计数据数据中的有意思商业模式,比如如前所述其犯罪行为的消费群。
有很多控制点演算法可选配,对大部份情形,没单个的最差控制点演算法。恰好相反,最合适积极探索一连串控制点演算法和五种演算法的相同实用性。在本讲义中,你将辨认出怎样在 python 中加装和采用世界顶级控制点演算法。
顺利完成本讲义后,你将晓得:
控制点是在输入统计数据数据的特点内部空间中搜寻大自然组的无监督管理难题。对大部份统计数据数据集,有很多相同的控制点演算法和单个的最差方式。在 Scikit-learn 机器自学库的 Python 中怎样同时实现、网络连接和采用世界顶级控制点演算法。
讲义简述
本讲义分成三部份:
一、控制点
二、控制点演算法
三、控制点演算法实例
1库加装
2控制点统计数据数据集
3实例
3.1可塑性散播
3.2裂解控制点
3.3 BIRCH
3.4 DBSCAN
3.5 K-均值
3.6 Mini-Batch K-均值
3.7 Mean Shift
3.8 OPTICS
3.9光谱控制点
3.10高斯混合模型
一、控制点
控制点分析,即控制点,是一项无监督管理的机器自学任务。它包括自动辨认出统计数据数据中的大自然分组。与监督管理自学(类似预测建模)相同,控制点演算法只解释输出统计数据数据,并在特点内部空间中找到大自然组或群集。
控制点控制技术适用作没要预测的类,而是将实例划分成大自然组的情形。—源自:《统计数据数据挖掘页:实用机器自学工具和控制技术》2016年。
群集一般来说是特点内部空间中的密度区域,其中来自域的实例(观测或统计数据数据行)比其他群集更接近群集。群集可以具有作为样本或点特点内部空间的中心(质心),并且可以具有边界或范围。
这些群集可能反映出在从中绘制实例的域中工作的某种机制,这种机制使某些实例彼此具有比它们与其余实例更强的相似性。—源自:《统计数据数据挖掘页:实用机器自学工具和控制技术》2016年。
控制点可以作为统计数据数据挖掘活动提供帮助,以便了解更多关于难题域的信息,即所谓的商业模式辨认出或知识辨认出。比如:
该进化树可以被认为是人工控制点分析的结果;将正常统计数据数据与异常值或异常分开可能会被认为是控制点难题;根据大自然犯罪行为将集群分开是一个集群难题,称为市场细分。
控制点还可用作特点工程的类型,其中现有的和新的实例可被映射并标记为属于统计数据数据中所标识的群集之一。虽然确实存在很多特定于群集的定量措施,但是对所识别的群集的评估是主观的,并且可能需要领域专家。一般来说,控制点演算法在人工合成统计数据数据集上与预先定义的群集进行学术比较,预计演算法会辨认出这些群集。
控制点是一种无监督管理自学控制技术,因此很难评估任何给定方式的输出质量。—源自:《机器自学页:机率观点》2012。
二、控制点演算法
有很多类型的控制点演算法。很多演算法在特点内部空间中的实例之间采用相似度或距离度量,以辨认出密集的观测区域。因此,在采用控制点演算法之前,扩展统计数据数据一般来说是良好的课堂教学。
控制点分析的大部份目标的核心是被群集的各个对象之间的相似程度(或相同程度)的概念。控制点方式尝试根据提供给对象的相似性定义对对象进行分组。—源自:《统计数据自学的要素:统计数据数据挖掘、推理和预测》,2016年
一些控制点演算法要求您指定或猜测统计数据数据中要辨认出的群集的数量,而另一些演算法要求指定观测之间的最小距离,其中实例可以被视为“关闭”或“连接”。因此,控制点分析是一个迭代过程,在该过程中,对所识别的群集的主观评估被反馈回演算法实用性的改变中,直到达到期望的或适当的结果。scikit-learn 库提供了一套相同的控制点演算法选配。下面列出了10种比较流行的演算法:
可塑性散播裂解控制点BIRCHDBSCANK-均值Mini-Batch K-均值Mean ShiftOPTICS光谱控制点高斯混合
每个演算法都提供了一种相同的方式来应对统计数据数据中辨认出大自然组的挑战。没最合适的控制点演算法,也没简单的方式来找到最合适的演算法为您的统计数据数据没采用控制实验。
在本讲义中,我们将回顾怎样采用来自 scikit-learn 库的这10个流行的控制点演算法中的每一个。这些实例将为您复制粘贴实例并在自己的统计数据数据上测试方式提供基础。我们不会深入研究演算法怎样工作的理论,也不会直接比较它们。让我们深入研究一下。
三、控制点演算法实例
在本节中,我们将回顾怎样在 scikit-learn 中采用10个流行的控制点演算法,这包括一个拟合模型的例子和可视化结果的例子。这些实例用作将粘贴复制到您自己的项目中,并将方式应用领域于您自己的统计数据数据。
1库加装
首先,让我们加装库。不要跳过此步骤,因为你需要确保加装了最新版本。你可以采用 pip Python 加装程序加装 scikit-learn 存储库,如下所示:
sudo pip install scikit-learn
接下来,让我们确认已经加装了库,并且您正在采用一个现代版本。运行以下脚本以输出库版本号。
#检查 scikit-learn 版本import sklearnprint(sklearn.version)
运行该实例时,您应该看到以下版本号或更高版本。
0.22.1
2控制点统计数据数据集
我们将采用 make classification ()函数创建一个测试二分类统计数据数据集。统计数据数据集将有1000个实例,每个类有两个输出要素和一个群集。这些群集在两个维度上是可见的,因此我们可以用散点图绘制统计数据数据,并通过指定的群集对图中的点进行颜色绘制。
这将有助于了解,至少在测试难题上,群集的识别能力怎样。该测试难题中的群集如前所述多变量高斯,并非大部份控制点演算法都能有效地识别这些类型的群集。因此,本讲义中的结果不应用领域于比较一般方式的基础。下面列出了创建和汇总合成控制点统计数据数据集的实例。
#综合