首页程序员资讯正文

我要投稿

图解最常用的 10 个机器学习算法！

admin 程序员资讯

2023-05-29 0 231

原副标题：要量最常见的 10 个机器自学演算法！

在机器自学应用领域，似曾相识讲法叫作“人世间没完全免费的早餐”，具体而言，它是指没任何人一种演算法能在每一难题上都能有最合适的效用，这个方法论在监督管理自学方面充分体现得至关重要。

举个范例而言，你不能说数学数学模型总有一天比计算机程序好，与此相反。数学模型运转被很多不利因素以内，比如统计数据集的大小不一和内部结构。

因此，你如果根据你的难题试著很多不同的演算法，同时采用MA78LMT欧谢勒县评估结果操控性并挑选出最优化项。

总之，你试著的演算法要和你的难题相贴近，其中的Auterive即是机器自学的主要各项任务。维米县，如果你想清扫新房子，你可能会加进微波炉、手杖或是螺丝刀，但你的确不能拿把钳子开始蕨科角吧。

对于渴求介绍机器学习基本知识的机器自学后辈而言，那儿有份统计数据生物学家采用的五大机器自学演算法，为你如是说这五大演算法的优点，易于我们更快地认知和应用应用领域，快上看哈哈。

01 非线性重回

非线性重回可能是语言学和机器自学中最著名和很易认知的演算法众所周知。

非线性重回用一个式子表示，通过找出输入表达式的特定权重股（B），来叙述输入表达式（x）与输入表达式（y）间的非差值。

Linear Regression

举例：y = B0 + B1 * x

给定输入x，我们将预测y，非线性重回自学演算法的目标是找出系数B0和B1的值。

可以采用不同的技术从统计数据中自学非线性重回数学模型，比如用于普通最小二乘和梯度下降优化的非线性代数解。

非线性重回已经存在了200多年，并且已经进行了广泛的研究。如果可能的话，采用这种技术时的一些经验法则是去除非常相似（相关）的表达式并从统计数据中移除噪声。这是一种快速简单的技术和良好的第一种演算法。

02 逻辑重回

逻辑重回是机器自学从统计应用领域借鉴的另一种技术。这是二分类难题的专用方法（两个类值的难题）。

逻辑重回与非线性重回类似，这是因为两者的目标都是找出每一输入表达式的权重股值。与非线性重回不同的是，输入的预测值得采用称为逻辑函数的非非线性函数进行变换。

逻辑函数看起来像一个大S，并能将任何人值转换为0到1的范围内。这很有用，因为我们可以将相应规则应用应用领域于逻辑函数的输入上，把值分类为0和1（比如，如果IF小于0.5，那么输入1）并预测类别值。

Logistic Regression

由于数学模型的特有自学方式，通过逻辑重回所做的预测也可以用于计算属于类0或类1的概率。这对于需要给出很多基本原理的难题十分有用。

与非线性重回一样，当你移除与输入表达式无关的属性以及彼此非常相似（相关）的属性时，逻辑重回确实会更快。这是一个快速自学和有效处理二元分类难题的数学模型。

03 非线性判别分析

传统的逻辑重回仅限于二分类难题。如果你有两个以上的类，那么非线性判别分析演算法（Linear Discriminant Analysis，简称LDA）是首选的非线性分类技术。

LDA的表示非常简单。它由你的统计数据的统计属性组成，根据每一类别进行计算。对于单个输入表达式，这包括：

每类的平均值。

跨所有类别计算的方差。

Linear Discriminant Analysis

LDA通过计算每一类的判别值并对具有最大值的类进行预测来进行。该技术假定统计数据具有高斯分布（钟形曲线），因此最合适先手动从统计数据中移除异常值。这是分类预测建模难题中的一种简单而强大的方法。

04 分类和重回树

计算机程序是机器自学的一种重要演算法。

计算机程序数学模型可用二叉树表示。对，就是来自演算法和统计数据内部结构的二叉树，没什么特别。每一节点代表单个输入表达式（x）和该表达式上的以内孩子（假定表达式是数字）。

Decision Tree

树的叶节点包含用于进行预测的输入表达式（y）。预测是通过遍历树进行的，当达到某一叶节点时停止，并输入该叶节点的类值。

计算机程序自学速度快，预测速度快。对于很多难题也经常预测准确，并且你不需要为统计数据做任何人特殊准备。

05 朴素贝叶斯

朴素贝叶斯是一种简单但极为强大的预测建模演算法。

该数学模型由两种类型的概率组成，可以直接从你的训练统计数据中计算出来：1）每一类别的概率; 2）给定的每一x值的类别的条件概率。一旦计算出来，概率数学模型就可以用于采用贝叶斯定理对新统计数据进行预测。当你的统计数据是数值时，通常假设高斯分布（钟形曲线），以便可以轻松估计这些概率。

Bayes Theorem

朴素贝叶斯被称为朴素的原因，在于它假设每一输入表达式是独立的。这是一个强硬的假设，对于真实统计数据而言是不切实际的，但该技术对于大范围内的复杂难题仍非常有效。

06 K近邻

KNN演算法非常简单而且非常有效。KNN的数学模型用整个训练统计数据集表示。是不是特简单？

通过搜索整个训练集内K个最相似的实例（邻居），并对这些K个实例的输入表达式进行汇总，来预测新的统计数据点。对于重回难题，新的点可能是平均输入表达式，对于分类难题，新的点可能是众数类别值。

成功的诀窍在于如何确定统计数据实例间的相似性。如果你的属性都是相同的比例，最简单的方法就是采用欧几里德距离，它可以根据每一输入表达式间的差直接计算。

K-Nearest Neighbors

KNN可能需要大量的内存或空间来存储所有的统计数据，但只有在需要预测时才会执行计算（或自学）。你还可以随时更新和管理你的训练集，以保持预测的准确性。

距离或紧密度的概念可能会在高维环境（大量输入表达式）下崩溃，这会对演算法造成负面影响。这类事件被称为维度诅咒。它也暗示了你如果只采用那些与预测输入表达式最相关的输入表达式。

07 自学矢量量化

K-近邻的缺点是你需要维持整个训练统计数据集。自学矢量量化演算法（或简称LVQ）是一种人工数学数学模型演算法，允许你挂起任意个训练实例并准确自学他们。

Learning Vector Quantization

LVQ用codebook向量的集合表示。开始时随机选择向量，然后多次迭代，适应训练统计数据集。在自学之后，codebook向量可以像K-近邻那样用来预测。通过计算每一codebook向量与新统计数据实例间的距离来找出最相似的邻居（最佳匹配），然后返回最佳匹配单元的类别值或在回归情况下的实际值作为预测。如果你把统计数据限制在相同范围（如0到1间），则可以获得最佳结果。

如果你发现KNN在您的统计数据集上给出了很好的结果，请试著采用LVQ来减少存储整个训练统计数据集的内存要求。

08 支持向量机

支持向量机也许是最受欢迎和讨论的机器自学演算法众所周知。

超平面是分割输入表达式空间的线。在SVM中，会挑选出一个超平面以将输入表达式空间中的点按其类别（0类或1类）进行分离。在二维空间中可以将其视为一条线，所有的输入点都可以被这条线完全分开。SVM自学演算法就是要找出能让超平面对类别有最佳分离的系数。