原副标题:要量最常见的 10 个机器自学演算法!
在机器自学应用领域,似曾相识讲法叫作“人世间没完全免费的早餐”,具体而言,它是指没任何人一种演算法能在每一难题上都能有最合适的效用,这个方法论在监督管理自学方面充分体现得至关重要。
举个范例而言,你不能说数学数学模型总有一天比计算机程序好,与此相反。数学模型运转被很多不利因素以内,比如统计数据集的大小不一和内部结构。
因此,你如果根据你的难题试著很多不同的演算法,同时采用MA78LMT欧谢勒县评估结果操控性并挑选出最优化项。
总之,你试著的演算法要和你的难题相贴近,其中的Auterive即是机器自学的主要各项任务。维米县,如果你想清扫新房子,你可能会加进微波炉、手杖或是螺丝刀,但你的确不能拿把钳子开始蕨科角吧。
对于渴求介绍机器学习基本知识的机器自学后辈而言,那儿有份统计数据生物学家采用的五大机器自学演算法,为你如是说这五大演算法的优点,易于我们更快地认知和应用应用领域,快上看哈哈。
01 非线性重回
非线性重回可能是语言学和机器自学中最著名和很易认知的演算法众所周知。
非线性重回用一个式子表示,通过找出输入表达式的特定权重股(B),来叙述输入表达式(x)与输入表达式(y)间的非差值。
Linear Regression
举例:y = B0 + B1 * x
给定输入x,我们将预测y,非线性重回自学演算法的目标是找出系数B0和B1的值。
可以采用不同的技术从统计数据中自学非线性重回数学模型,比如用于普通最小二乘和梯度下降优化的非线性代数解。
非线性重回已经存在了200多年,并且已经进行了广泛的研究。 如果可能的话,采用这种技术时的一些经验法则是去除非常相似(相关)的表达式并从统计数据中移除噪声。 这是一种快速简单的技术和良好的第一种演算法。
02 逻辑重回
逻辑重回是机器自学从统计应用领域借鉴的另一种技术。 这是二分类难题的专用方法(两个类值的难题)。
逻辑重回与非线性重回类似,这是因为两者的目标都是找出每一输入表达式的权重股值。 与非线性重回不同的是,输入的预测值得采用称为逻辑函数的非非线性函数进行变换。
逻辑函数看起来像一个大S,并能将任何人值转换为0到1的范围内。这很有用,因为我们可以将相应规则应用应用领域于逻辑函数的输入上,把值分类为0和1(比如,如果IF小于0.5,那么 输入1)并预测类别值。
Logistic Regression
由于数学模型的特有自学方式,通过逻辑重回所做的预测也可以用于计算属于类0或类1的概率。这对于需要给出很多基本原理的难题十分有用。
与非线性重回一样,当你移除与输入表达式无关的属性以及彼此非常相似(相关)的属性时,逻辑重回确实会更快。 这是一个快速自学和有效处理二元分类难题的数学模型。
03 非线性判别分析
传统的逻辑重回仅限于二分类难题。 如果你有两个以上的类,那么非线性判别分析演算法(Linear Discriminant Analysis,简称LDA)是首选的非线性分类技术。
LDA的表示非常简单。 它由你的统计数据的统计属性组成,根据每一类别进行计算。 对于单个输入表达式,这包括:
每类的平均值。
跨所有类别计算的方差。
Linear Discriminant Analysis
LDA通过计算每一类的判别值并对具有最大值的类进行预测来进行。该技术假定统计数据具有高斯分布(钟形曲线),因此最合适先手动从统计数据中移除异常值。这是分类预测建模难题中的一种简单而强大的方法。
04 分类和重回树
计算机程序是机器自学的一种重要演算法。
计算机程序数学模型可用二叉树表示。对,就是来自演算法和统计数据内部结构的二叉树,没什么特别。 每一节点代表单个输入表达式(x)和该表达式上的以内孩子(假定表达式是数字)。
Decision Tree
树的叶节点包含用于进行预测的输入表达式(y)。 预测是通过遍历树进行的,当达到某一叶节点时停止,并输入该叶节点的类值。
计算机程序自学速度快,预测速度快。 对于很多难题也经常预测准确,并且你不需要为统计数据做任何人特殊准备。
05 朴素贝叶斯
朴素贝叶斯是一种简单但极为强大的预测建模演算法。
该数学模型由两种类型的概率组成,可以直接从你的训练统计数据中计算出来:1)每一类别的概率; 2)给定的每一x值的类别的条件概率。 一旦计算出来,概率数学模型就可以用于采用贝叶斯定理对新统计数据进行预测。 当你的统计数据是数值时,通常假设高斯分布(钟形曲线),以便可以轻松估计这些概率。
Bayes Theorem
朴素贝叶斯被称为朴素的原因,在于它假设每一输入表达式是独立的。 这是一个强硬的假设,对于真实统计数据而言是不切实际的,但该技术对于大范围内的复杂难题仍非常有效。
06 K近邻
KNN演算法非常简单而且非常有效。KNN的数学模型用整个训练统计数据集表示。 是不是特简单?
通过搜索整个训练集内K个最相似的实例(邻居),并对这些K个实例的输入表达式进行汇总,来预测新的统计数据点。 对于重回难题,新的点可能是平均输入表达式,对于分类难题,新的点可能是众数类别值。
成功的诀窍在于如何确定统计数据实例间的相似性。如果你的属性都是相同的比例,最简单的方法就是采用欧几里德距离,它可以根据每一输入表达式间的差直接计算。
K-Nearest Neighbors
KNN可能需要大量的内存或空间来存储所有的统计数据,但只有在需要预测时才会执行计算(或自学)。 你还可以随时更新和管理你的训练集,以保持预测的准确性。
距离或紧密度的概念可能会在高维环境(大量输入表达式)下崩溃,这会对演算法造成负面影响。这类事件被称为维度诅咒。它也暗示了你如果只采用那些与预测输入表达式最相关的输入表达式。
07 自学矢量量化
K-近邻的缺点是你需要维持整个训练统计数据集。 自学矢量量化演算法(或简称LVQ)是一种人工数学数学模型演算法,允许你挂起任意个训练实例并准确自学他们。
Learning Vector Quantization
LVQ用codebook向量的集合表示。开始时随机选择向量,然后多次迭代,适应训练统计数据集。 在自学之后,codebook向量可以像K-近邻那样用来预测。 通过计算每一codebook向量与新统计数据实例间的距离来找出最相似的邻居(最佳匹配),然后返回最佳匹配单元的类别值或在回归情况下的实际值作为预测。 如果你把统计数据限制在相同范围(如0到1间),则可以获得最佳结果。
如果你发现KNN在您的统计数据集上给出了很好的结果,请试著采用LVQ来减少存储整个训练统计数据集的内存要求。
08 支持向量机
支持向量机也许是最受欢迎和讨论的机器自学演算法众所周知。
超平面是分割输入表达式空间的线。 在SVM中,会挑选出一个超平面以将输入表达式空间中的点按其类别(0类或1类)进行分离。在二维空间中可以将其视为一条线,所有的输入点都可以被这条线完全分开。SVM自学演算法就是要找出能让超平面对类别有最佳分离的系数。
Support Vector Machine
超平面和最近的统计数据点间的距离被称为边界,有最大边界的超平面是最佳之选。同时,只有这些离得近的统计数据点才和超平面的定义和分类器的构造有关,这些点被称为支持向量,他们支持或定义超平面。在具体实践中,我们会加进优化演算法来找出能最大化边界的系数值。
SVM可能是最强大的即用分类器众所周知,在你的统计数据集上值得一试。
09 bagging和随机森林
随机森林是最流行和最强大的机器自学演算法众所周知。 它是一种被称为Bootstrap Aggregation或Bagging的集成机器自学演算法。
bootstrap是一种强大的统计方法,用于从统计数据样本中估计某一数量,比如平均值。 它会抽取大量样本统计数据,计算平均值,然后平均所有平均值,以便更准确地估算真实平均值。
在bagging中加进了相同的方法,但最常见到的是计算机程序,而不是估计整个统计数学模型。它会训练统计数据进行多重抽样,然后为每一统计数据样本构建数学模型。当你需要对新统计数据进行预测时,每一数学模型都会进行预测,并对预测结果进行平均,以更快地估计真实的输入值。
Random Forest
随机森林是对计算机程序的一种调整,相对于选择最佳分割点,随机森林通过引入随机性来实现次优分割。
因此,为每一统计数据样本创建的数学模型间的差异性会更大,但就自身意义而言依然准确无误。结合预测结果可以更快地估计正确的潜在输入值。
如果你采用高方差演算法(如计算机程序)获得良好结果,那么加上这个演算法后效用会更快。
10 Boosting和AdaBoost
Boosting是一种从一些弱分类器中创建一个强分类器的集成技术。它先由训练统计数据构建一个数学模型,然后创建第二个数学模型来试著纠正第一个数学模型的错误。 不断添加数学模型,直到训练集完美预测或已经添加到数量上限。
AdaBoost是为二分类开发的第一个真正成功的Boosting演算法,同时也是认知Boosting的最佳起点。目前基于AdaBoost而构建的演算法中最著名的就是随机梯度boosting。
AdaBoost
AdaBoost常与短计算机程序一起采用的更新都会影响序列中下一棵树的自学效用。在建完所有树之后,演算法对新统计数据进行预测,并且通过训练统计数据的准确程度来加权每棵树的操控性。
因为演算法极为注重错误纠正,所以一个没异常值的整洁统计数据十分重要。
初学者在面对各种各样的机器自学演算法时提出的一个典型难题是“我如果采用哪种演算法?”难题的答案取决于很多不利因素,其中包括:
统计数据的大小不一,质量和性质;
可用的计算时间;
各项任务的紧迫性;
你想要对统计数据做什么。即使是一位经验丰富的统计数据生物学家,在试著不同的演算法之前,也无法知道哪种演算法会表现最合适。 虽然还有很多其他的机器自学演算法,但这些演算法是最受欢迎的演算法。 如果你是机器自学的新手,这是一个很好的自学起点。
推荐阅读
👉 情人节统计数据“爆”了!统计数据显示女性比男性更愿意为浪漫买单
👉 做一份好的生产计划之前,要做好哪些准备 | CDA持证人专访
👉 解读 | 如今统计数据分析岗位的现状和需求是怎样的?
👉 解读 | 统计数据分析行业大概是什么时候在国内兴起的?
👉 从体制内走出,我靠统计数据分析再次上岸 | 求职分享