简明数据科学(1):啥啥啥?这都是啥?

2023-05-26 0 399

书名:Data Science Simplified Part 1: Principles and Process

翻译者:杨德杰

2006年,爱尔兰物理学家、Tesco Clubcard的CTOClive Humbly谢鲁瓦明确提出了“统计数据数据是捷伊铁矿石”这个经营理念。他说:

统计数据数据是捷伊铁矿石。它虽然有用,但是不经提炼出也根本无法被用。它要转换成石油、塑胶、危险品等,来缔造两个易于同时实现的客观条件体。所以我们要行业龙头统计数据数据、分析它的商业价值。

简明数据科学(1):啥啥啥?这都是啥?

(再说不是这种油)

:21世纪末最火辣的工作》(Data Scientist: The Sexiest Job of the 21st Century)把统计数据数据自然生物学家看做人类文明的“新物种”:两个统计数据数据骇客、策略师、沟通交流研究者、可信赖高级顾问的结合体。

简明数据科学(1):啥啥啥?这都是啥?

(除不安全可靠,基本上就是这货没跑了)

每一组织机构已经开始企图采用更多的统计数据数据驱动力。 机器自学控制技术为他们在这另一方面的不懈努力提供更多了协助。 我意识到许多金属材料过分网络化、昂西桑县认知。 在本系列产品该文中,我的目的是精简统计数据数据自然科学。 我将以麻省理工学院专业课程/书(统计数据自学专论)为蛛丝马迹。 企图让我们更更易认知统计数据数据自然科学。

责任编辑我将具体来说如是说统计数据数据自然科学的基本上概念、一般操作过程和问题类别。

统计数据数据自然科学是两个半学科专业交叠应用领域。 它是下列应用领域间的关连:

商业性科学知识

统计数据自学,又称为机器自学

笔记本电脑程式设计

关键性基本上原理:

简明数据科学(1):啥啥啥?这都是啥?

通常机器自学被分成两类任务:

一)有监督的自学

监督自学是一类机器自学任务,它有两个已知的目标。 理论上,建模者能用监督的机器自学模型达成可分类的目标。 监督自学可以进一步分为两类:

1、回归

回归是机器自学的主要任务。 它们用于估计或预测数值变量。 回归模型的几个例子可以是:

下季度潜在收入估计是多少?

明年可以完成多少交易?

2、分类

顾名思义,分类模型分类了一些东西。 它来估计这些东西最适合放在哪些桶。 分类模型经常被用于各种类别的应用。 分类模型的几个例子有:

垃圾邮件过滤是分类模型很常见的一种应用。 这里每一传来的电子邮件都将基于某些特征被分类成垃圾邮件、非垃圾邮件;

流失预测是分类模型的另两个重要应用。 流失预测被广泛应用于电信应用领域,主要是识别两个给定的客户是否要流失(即停止采用服务)。

二)无监督的自学

无监督的自学是另一类机器自学任务,它没有目标。 由于无监督自学没有任何指定的目标,因此它们产生的结果有时候也很难解释。 有许多类别的无监督自学任务, 主要有:

聚类: 聚类是两个讲类似事物组合起来的操作过程。 客户行业龙头就采用了聚类方法。

关联: 关联是寻找经常相互搭配在一起的产品的方法。 在零售方面,市场购物篮分析就是采用关联的方法将产品捆绑在一起。

链路预测: 链路预测用于查找统计数据数据项间的连接。Facebook、亚马逊和Netflix采用的推荐引擎就大量采用了链接预测算法来个性化的推荐给我们朋友、要购买的物品和电影。

统计数据数据压缩:统计数据数据压缩的思想被用于从具备许多特征的统计数据数据集中精简出一些特征。 它就是寻找能用较少属性来表达具有许多属性的大统计数据数据集的方式。

统计数据数据是一种战略资产: 这个概念是两个结构性的思维。你可能要问“我们是否已经开始采用我们在收集和存储的所有统计数据数据?我们能从中提取出有意义的信息吗?”我认为这些问题的答案都是“否”。由云产生的公司本质上是由统计数据数据驱动力的。正是因为他们心里将统计数据数据视为战略资产,所以对于他们中的大多数来说同时实现这些为“否”的大部分问题,并不是问题。

科学知识提取的系统操作过程:我们需要有两个有效的操作过程来从统计数据数据中提取科学知识。这个操作过程应该在有清楚的交付成果下,同时具备清晰明确的阶段层次。跨行业统计数据数据挖掘标准流程(CRISP-DM)就是这样的两个操作过程。

和统计数据数据困觉: 组织机构机构都需要投资于热衷于统计数据数据的人。将统计数据数据转化为科学知识不是炼金术,也不存在炼金术士。他们需要的是能够认知统计数据数据商业价值,并且具备统计数据数据素养和缔造力的布道师。他们需要的是可以把统计数据数据,控制技术和业务联系起来的人员。

拥抱不确定性: 统计数据数据自然科学不是两个金刚钻,更不是水晶球。像报告和KPI一样,它其实是两个决策推动者。统计数据数据自然科学是一种工具,而不是一种手段。它不意味着绝对,它只是代表了一种概率。管理者和决策者得接受这个事实。他们需要在决策操作过程中接受量化的不确定性。如果两个组织机构的文化是急于求成,这种不确定性只会影响更深。如果组织机构选择的是一种试验性的文化,统计数据数据自然科学才能发展。

简明数据科学(1):啥啥啥?这都是啥?

(不确定性导致了天生易背锅体质)

BAB原则: 我认为这是最重要的原则。统计数据数据自然科学文献的重点是模型和算法。公式并没有业务背景。业务 – 分析 – 业务(BAB)恰恰是强调公式要应用在业务中的原则。把公式应用在业务场景中才是关键性:定义业务问题,采用分析来解决它,将输出集成到业务流程中 。记住BAB。

操作过程:

简明数据科学(1):啥啥啥?这都是啥?

从第2条原则出发,我来强调一下数据自然科学的处理操作过程。 下列是统计数据数据自然科学项目中的比较典型的几个阶段:

1. 定义业务问题

爱因斯坦曾说过: “事情应该力求简单,但不能过分简单”。 这句话点出了定义业务问题的关键性。问题的陈述应该被仔细研究过后并规范化。 清晰成功的规范需要被制定。 就我经历来说,业务团队虽忙于手上操作性的任务,但 这也不意味着他们没有需要解决的挑战。 头脑风暴会议,研讨会和访谈可以协助他们发现这些挑战并研究假设。举例个例子,我们假设一家电信公司随着客户群的减少,收入也同比下降。在这种情况下,业务问题可能定义为:该公司需要通过瞄准捷伊群体和减少客户流失来扩大客户群。

简明数据科学(1):啥啥啥?这都是啥?

(你猜猜我是不是真的说过?)

2. 分解成机器自学的任务

业务问题一旦被定义,就需要被分解成机器自学的任务。 接下来详细说明下刚刚举的例子。 如果组织机构需要通过瞄准捷伊群体和减少客户流失来扩大客户群,那么我们如何将其分解为机器自学的问题呢? 下列是分解的两个例子:

减少 x%的客户流失.

为瞄准的市场识别捷伊客户群

3. 统计数据数据准备

一旦我们定义了业务问题,并且分解成了机器自学问题,我们接下来需要深入了解统计数据数据。 对于手头上的问题,统计数据数据的认知应该清晰。 这能协助我们制定正

4. 探索性的统计数据数据挖掘

宇航员要穿越未知的宇宙, 同样,统计数据数据自然生物学家也要经历统计数据数据中未知模式,探知其特征的关键性点,并构想出未探索的那一部分。 探索性的统计数据数据挖掘(EDA)是一项令人兴奋(excited!)的任务。 我们可以更好地了解统计数据数据,调查细微差别,发现隐藏的模式,开发新特性并制定建模策略。

5. 建模

在EDA之后,我们进入建模阶段。 这里,基于具体的机器自学问题,我们要应用有效的算法,如回归,决策树,随机森林等。

6. 部署和评估

最后,开发的模型被部署。 它们会被不断监测,以观察它们在实际中的性能,并进行相应的校准。通常,建模和部署部分只占工作的20%,80%是需要你亲自上手,探索并了解统计数据数据。

简明数据科学(1):啥啥啥?这都是啥?

机器自学问题分类:

简明数据科学(1):啥啥啥?这都是啥?

通常机器自学被分成两类任务:

一)有监督的自学

监督自学是一类机器自学任务,它有两个已知的目标。 理论上,建模者能用监督的机器自学模型达成可分类的目标。 监督自学可以进一步分为两类:

1、回归

回归是机器自学的主要任务。 它们用于估计或预测数值变量。 回归模型的几个例子可以是:

下季度潜在收入估计是多少?

明年可以完成多少交易?

2、分类

顾名思义,分类模型分类了一些东西。 它来估计这些东西最适合放在哪些桶。 分类模型经常被用于各种类别的应用。 分类模型的几个例子有:

垃圾邮件过滤是分类模型很常见的一种应用。 这里每一传来的电子邮件都将基于某些特征被分类成垃圾邮件、非垃圾邮件;

流失预测是分类模型的另两个重要应用。 流失预测被广泛应用于电信应用领域,主要是识别两个给定的客户是否要流失(即停止采用服务)。

二)无监督的自学

无监督的自学是另一类机器自学任务,它没有目标。 由于无监督自学没有任何指定的目标,因此它们产生的结果有时候也很难解释。 有许多类别的无监督自学任务, 主要有:

聚类: 聚类是两个讲类似事物组合起来的操作过程。 客户行业龙头就采用了聚类方法。

关联: 关联是寻找经常相互搭配在一起的产品的方法。 在零售方面,市场购物篮分析就是采用关联的方法将产品捆绑在一起。

链路预测: 链路预测用于查找统计数据数据项间的连接。Facebook、亚马逊和Netflix采用的推荐引擎就大量采用了链接预测算法来个性化的推荐给我们朋友、要购买的物品和电影。

统计数据数据压缩:统计数据数据压缩的思想被用于从具备许多特征的统计数据数据集中精简出一些特征。 它就是寻找能用较少属性来表达具有许多属性的大统计数据数据集的方式。

简明数据科学(1):啥啥啥?这都是啥?

(图为悟空第一次进行统计数据数据压缩)

总结

统计数据数据自然科学是个宽广的应用领域,也是两个令人兴奋的应用领域。 这是一门艺术。 这是一门自然科学。 在这篇该文中,我们刚刚只是探索了冰山一角。 如果“ Whys”都不知道,那么知道“Hows”也将是徒劳的。 在接下来的该文中,我们将探讨机器自学的“Hows”。

相关阅读:

表面筹备发布会,其实苹果暗地里在别处较劲…

B站要革命——全球首家鬼畜神器上线了

“机翻体”即将沦为历史?哦我的老伙计,难以置信!

简明数据科学(1):啥啥啥?这都是啥?

相关文章

发表评论
暂无评论
官方客服团队

为您解决烦忧 - 24小时在线 专业服务