干货分享:数据挖掘浅谈

2023-06-01 0 597

编辑编者按:统计数据挖掘是指从大批的、不全然的、有噪音的、模糊不清的、乱数的统计数据中透过演算法搜寻暗藏于当中重要信息的操作过程。责任编辑作者紧紧围绕统计数据挖掘展开预测,希望对你有帮助。

干货分享:数据挖掘浅谈

小黑和小黑开了一家玫瑰花店。小黑跟小黑说:“圣诞节快到了,咱店都须要预备这四类圣诞节玫瑰花?每类玫瑰花须要预备多少?……” 小黑回答道,“根据客人展开分类,大致分为自信心表白、浪漫上心、宝龙爱人等共8类。前四类去年出让不光好,去年须要提供更多比去年同期多30%的玫瑰花……”。小黑说:“玫瑰花的效期不光短,所以,多购买的玫瑰花只能从30%降到10%,既能控制成本,又能积蓄美誉度……”

在上面事例中,小黑制定订货方案具体来说展开客人展开分类,在统计数据挖掘应用领域,能采用无监督数学模型(比如k-means),也能采用展开分类数学模型(比如KNN、计算机程序、方法论重回等)将使用者分群。小黑估计“去年须要提供更多比前两年高30%的玫瑰花”,在统计数据挖掘应用领域,能采用重回数学模型展开估计。

接下去,本栏就跟你详解呵呵数据挖掘。

01 机器学习与统计数据挖掘的差别与联络

1.1 概念

具体来说,我们对机器学习和统计数据挖掘的表述做呵呵归纳:统计数据挖掘是指从大批的、不全然的、有噪音的、模糊不清的、乱数的统计数据中透过演算法搜寻暗藏于当中重要信息的操作过程。换言之,统计数据挖掘企图从海量统计数据中找到管用的重要信息。

机器学习是一类从统计数据中自动预测获得规律性,并借助规律性对未明统计数据展开估计的演算法。换句话说,机器学习就是将现实中的难题抽象化成数学数学模型,借助数学模型对这个数学数学模型展开解,从而解决现实中的难题。

1.2 联络与差别

1.2.1 联络统计数据挖掘受到很多学科专业应用领域的影响,当中包括统计资料库、机器学习、语言学、应用领域知识及建模等应用领域。具体来说,对于统计数据挖掘,统计资料库提供更多统计数据纳米技术,机器学习和语言学提供更多统计数据挖掘技术。

干货分享:数据挖掘浅谈

语言学经常忽略实际的功用醉心理论的迷人,因此,语言学提供更多的大部分技术都要在机器学习应用领域进一步研究,变成机器学习演算法后才能进入统计数据挖掘应用领域。从这方面来讲,语言学主要是透过机器学习来对统计数据挖掘发挥影响,而机器学习和统计资料库则是统计数据挖掘的两大支撑。简言之,机器学习为统计数据挖掘提供更多解决实际难题的方法,统计数据挖掘中演算法的成功应用,说明了机器学习对演算法的研究具有实际运用价值。

1.2.2 差别

从统计数据挖掘来讲,大多数统计数据挖掘技术都是来自于机器学习,但是机器学习研究不把海量统计数据作为处理对象,因此,统计数据挖掘须要对演算法展开改造,使得演算法性能和空间占用达到实用的地步。同时,统计数据挖掘还有自身独特的内容——关联预测。

至于,统计数据挖掘和建模,从概念上区分,统计数据挖掘重在发现知识,建模重在认识事物。

简言之,机器学习注重相关机器学习演算法的理论研究和演算法提升,更偏向理论和学术;统计数据挖掘注重运用演算法或者其他某种模式解决实际难题,更偏向实践和运用。

02 机器学习的展开分类

机器学习的方法是基于统计数据产生的“数学模型”的演算法,也称为“学习演算法”。机器学习方法包括有监督学习、无监督学习、半监督学习和强化学习。

干货分享:数据挖掘浅谈

2.1 有监督学习

有监督学习指对统计数据的若干特征与标签之间的关联性展开建模的操作过程。它的主要目标是从有标签的训练统计数据中学习数学模型,以便对未明或未来的统计数据做出估计。以使用者是否会复购玫瑰花为例,能采用监督学习演算法在打过标签的(正确标识是与否)统计数据上训练数学模型,然后用该数学模型来估计新使用者是否属于粘性使用者。

标签为离散值的监督学习任务称为「展开分类任务」,比如上述的使用者是否会复购玫瑰花示例。常用的展开分类模型包括KNN、计算机程序、方法论重回等。

标签为连续值的监督学习任务称为「重回任务」,比如根据历史统计数据估计未来的销售额。常用的重回数学模型为线性重回、非线性重回和岭重回等。

注意:机器学习应用领域的估计变量通常称为特征,而响应变量通常称为目标变量或标签。

2.2 无监督学习

无监督学习指对不带任何标签的统计数据特征展开建模,通常被看成是一种“让统计数据自己介绍自己”的操作过程。换句话说,用无监督学习,能在没有目标变量或奖励函数的指导下,探索统计数据结构来提取有意义的重要信息。这类数学模型包括「聚类任务」和「降维任务」。当中,聚类演算法能将统计数据分成不同的组别,而降维演算法追求用更简洁的方式表现统计数据。

2.3 半监督学习

半监督学习方法介于有监督学习和无监督学习之间,通常在统计数据不完整时采用。

2.4 强化学习

强化学习不同于监督学习,它将学习看作是试探评价操作过程,以“试错”的方式展开学习,并与环境交互已获得奖惩指导行为,以其作为评价。换句话说,强调如何基于环境而行动,以取得最大化的预期利益。此时,系统靠自身的状态和动作展开学习,从而改展开动方案以适应环境。

03 统计数据挖掘建模操作过程

从统计数据本身来考虑,统计数据挖掘建模操作过程通常须要有理解商业、理解统计数据、预备统计数据、建数学模型、评估数学模型和部署数学模型6个步骤。

干货分享:数据挖掘浅谈

3.1 理解商业

理解商业算是统计数据挖掘中最重要的一部分,在这个阶段我们须要明确商业目标、评估商业环境、确定挖掘目标以及产生一个项目计划。简单地说,就是针对不同的业务场景,须要明白挖掘的目标是什么,须要达到什么样的效果。用大白话讲,就是你到底想干啥。

仍以玫瑰花店为例,为了提高销售额,店员能帮助客户快速找到他感兴趣的玫瑰花,同时在保证使用者体验的情况下,为其附加一个可接受的小饰品,比如花瓶、零食、香水等。

3.2 理解统计数据

统计数据是挖掘操作过程的“原材料”,在统计数据理解操作过程中我们须要了解都有哪些统计数据,这些统计数据的特征是什么,能透过对统计数据展开描述预测得到统计数据的特点。当中,了解有哪些统计数据尤为重要,其决定了后期工作进展的顺利程度。比如和花店有关的统计数据:

1)玫瑰花统计数据:玫瑰花名称、玫瑰花品类、订货时间、订货数量、订货金额等。

2)经营统计数据:经营时间、预定时间、预定品类、预定人数等。

3)其他统计数据:是否为节假日、使用者美誉度、竞争对手动向、天气情况等。

3.3 预备统计数据

在统计数据预备阶段我们须要对统计数据作出清洗、重建、合并等操作。选出要展开预测的统计数据,并对不符合数学模型输入要求的统计数据展开规范化操作。主要是为建模预备统计数据,能从统计数据预处理、特征提取、特征选择等几方面出发,整理如下:1)缺失值:由于个人隐私或设备故障导致某些观测值在某些纬度上的漏缺,通常称为缺失值。缺失值存在可能会导致数学模型结果的错误,所以针对缺失值能考虑删除、众数或均值填充等解决。

2)异常值:由于远离正常样本的观测点,它们的存在同样会对数学模型的准确型造成影响。能透过象限图或3sigma(正态分布)展开判断,如果是,能考虑删除或单独处理。

3)量纲不一致:数学模型容易受到不同量纲的影响,因此须要透过标准化方法(通常采用归一化、Normalization之类的方法)将统计数据展开转换。

4)维度灾难:当统计数据集中包含上百乃至上千万的变量时,往往会提高数学模型的复杂度,从而影响数学模型的运行效率,所以须要采用方差预测、相关预测、主成分预测等手段实现降维。

3.4 建数学模型

一般情况下,预处理将占整个统计数据挖掘流程80%左右的时间。在保证统计数据“干净”的前提下,须要选出合适的数学模型。以下是常用的机器演算法。1)展开分类数学模型:KNN、计算机程序、方法论重回等。

2)重回数学模型:线性重回、岭重回、支持向量重回等。

3)无监督数学模型:k-means等。

统计数据挖掘中大部分数学模型都不是专为解决某个难题而特制的,数学模型之间相互不排斥。不能说一个难题只能采用某个数学模型,其他的都不能用。通常来说,针对某个统计数据挖掘项目,并不存在所谓的最好的数学模型,在最终决定选择哪种数学模型之前,各种数学模型都尝试呵呵,然后再选取一个较好的。各种数学模型在不同的环境中,优劣会有所不同。

3.5 评估数学模型

评估阶段主要是对建模结果展开评估,目的是选出最佳的数学模型,让这个数学模型能够更好地反映统计数据的真实性。并不是每一次建模都能符合我们的目标,对效果较差的结果预测原因,偶尔也会返回前面的步骤对挖掘操作过程重新表述。比如,对于计算机程序或者方法论重回,即使在训练集中表现良好,但在测试集中结果较差,说明该数学模型存在过拟合。

3.6 数学模型部署

建立的数学模型须要解决实际的难题,它还包括了监督、产生报表和重新评估数学模型等操作过程。很多时候建模一般采用spss、python、r等,在建模的操作过程中只考虑数学模型的可用性,在生产环境中通常会借助Java或C++等语言将数学模型改写,从而提高运行性能。

祝大家圣诞节快乐!

作者:猫耳朵,专注于统计数据挖掘;“统计数据人创作者联盟”成员。

责任编辑由@一个统计数据人的自留地 原创发布于人人都是产品经理,未经许可,禁止转载。

题图来自 Pexels,基于CC0协议。

相关文章

发表评论
暂无评论
官方客服团队

为您解决烦忧 - 24小时在线 专业服务