有关数据挖掘的方式和业务流程,就要从下列两个难题起程详尽谈谈数学方式,协助我们创建数据挖掘的架构和路子:
1. 甚么是数学方式?
2. 最常见的 10 种数学方式
3. 透过两个事例努力做到总结经验
一、甚么是分析方法?
没数据挖掘路子的人时常会有下列 3 种病症。
病症一:没数据挖掘觉悟。
病症整体表现:时常会说「我真的」「我真的」「我指出」。
这类人一切工作靠拍脑袋决定,而不是靠数据挖掘来支持决策。这就导致:
写了 100 篇文章也不知道甚么类型的文章用户会喜欢;
推广了 10 个付费渠道,却不知道钱花得有没效果;
上线了无数个产品功能,却不知道甚么功能对用户更有价值。
他们靠真的来做事情,而不是用数据挖掘来做决策。这也是为甚么他们浑浑噩噩工作了多年以后,却依然徘徊在基础岗位。
病症二:统计式的数据挖掘。
病症整体表现:做了很多图表,却发现不了业务中存在的难题。
这类人每天也按时上班,也用数据做了很多图表,但是只是统计、分析之前已经知道的现象。例如分析结论只是「这个月销售有所下降」,却不会深入分析现象背后发生的原因,从而也得不出甚么具有价值的结论。
他们最害怕老板问这样的难题:为甚么这个数据会下降?采取甚么措施可以解决难题?
病症三:只会使用工具的数据挖掘。
病症整体表现:这类人平时学了很多工具(Excel、SQL 或者 Python 等),谈起使用工具的技巧头头是道,但是面对难题,还是不会分析。
例如面试或者工作里时常遇到这样的难题:
上图表格是一家公司 App 的一周日活跃率,老板交给你下列任务:
(1)从数据中你看到了甚么难题?你真的背后的原因是甚么?
(2)提出两个有效的运营改进计划。
你可能有这样的真的:
面对难题,没路子,怎么办呢?
面对一堆数据,我该如何下手去分析呢?
这些病症是大部分运营人员、产品经理和数据挖掘相关从业人员的真实日常写照。
那究竟甚么是数据挖掘路子呢?
面对难题,通常的想法是零散的,没一点路子。如果能将零散的想法整理成有条理的路子,从而快速解决难题,那该多好呀!
有甚么方式可以将零散的想法整理成有条理的分析路子呢?这些方式就是数学方式。掌握了数学方式就可以具备这种能力。
将分析方法和盖房子做个类比(图 2-5),数学方式就好比在盖房子前画的设计图,用来指导如何盖房子,是分析难题的路子。数据挖掘的技术工具好比盖房子中的挖土机等工具。在设计图的指导下才知道如何使用挖土机来盖好房子。同样,在数学方式的指导下你才能知道如何使用工具(Excel、SQL 或者 Python 等)去分析数据,解决业务难题。
二.最常见的 10 种数学方式
前面我们知道了,具备数据挖掘路子的本质是掌握常见的数学方式。所以,难题倒也变的简单了,只要你掌握常见的数学方式,数据挖掘路子自然就有了。
常见的数学方式有哪些?
根据业务场景中分析目的的不同,可以选择对应的数学方式。我把常见的数学方式整理到下表了,你直接拿着用就可以了。
如果你的分析目的是想将复杂难题变得简单,就可以使用逻辑树数学方式,例如经典的费米难题就可以用这个数学方式。
如果你的分析目的是做行业分析,那么就可以用 PEST 数学方式,例如你想要研究中国少儿编程行业。
如果你想从多个角度去思考难题,那么就可以用多维度拆解数学方式,例如找相亲对象,需要从多个角度去分析是否合适。
如果你想进行对比分析,就要用到对比数学方式,例如你朋友问自己胖吗,就是在对比。
如果你想找到难题发生的原因,那么就要用到假设检验数学方式,其实破案剧里警察就是用这个方式来破案的。
如果你想知道 A 和 B 有甚么关系,就要用到相关数学方式,例如豆瓣在我们喜欢的电影下面推荐和这部分电影相关的电影。
如果你想对用户留存和流失分析,就要用到群组分析方式,例如微博用户留存分析。
如果你想对用户按价值分类,那么就要用到 RFM 数学方式,例如信用卡的会员服务,就是对用户按价值分类,对不同用户使用不同的营销策略,从而努力做到精细化运营。
如果你想分析用户的行为或者做产品运营,就要用到 AARRR 模型数学方式,例如对拼多多的用户进行分析。
如果你想分析用户的转化,就要用到漏斗分析方式,例如店铺本周销量下降,想知道是中间哪个业务环节出了难题。
这两个数学方式是最常见的,掌握它们,可以协助解决大部分难题。后文会分别讲解各个数学方式,最后再透过两个事例来看如何在实际的难题中灵活使用这些数学方式。
在工作或者面试中,会时常听到分析思维、分析路子、数学方式。这三个词语有甚么关系呢?其实简单来说,它们都是指数学方式。因为数学方式是将零散的想法整理成有条理的分析路子。有了分析路子,你就具备了分析思维。
三. 透过两个事例努力做到总结经验
应用数据挖掘路子解决难题,可以使用我总结的下列步骤:
第 1 步:明确难题。
透过观察现象,把难题定义清楚,这是数据挖掘的第 1 步。只有明确了难题,才能围绕这个难题展开后面的分析。如果一开始难题就定义错了,那再怎么分析,也是白费时间。
第 2 步:分析原因。
这一步是分析难题发生的原因,可以透过下面两个难题把原因搞清楚:①哪里出了难题?②为甚么会出现这个难题?具体分析步骤如下:
(1)使用「多维度拆解数学方式」对难题进行拆解,将两个复杂难题细化成各个子难题;
(2)对拆解的每个部分,使用「假设检验数学方式」找到哪里出了难题。分析的过程可以用「对比数学方式」等多个数学方式来辅助完成;
(3)在找到哪里出了难题以后,可以多问自己「为甚么出现了这个难题」,然后使用「相关数学方式」进行深入分析。
第 3 步:提出建议。
找到原因就完事了吗?还不行,要找到对应的办法才是分析的终点。所以,找到原因以后,还要针对原因给出建议,或者提出可以实施的解决方案。在决策这一步,常见的数学方式是回归分析或者 AARRR 分析。需要注意的是:
(1)做决策的选项不能太多。太多的选项不仅会增加决策的成本,还会让人迷失,无从下手。相对简单的难题,需要 4 个选项左右;相对复杂的难题,需要 4~7 个选项;
(2)决策要是可以落地的具体措施,这样决策者才能根据措施,合理安排资源,把措施变成行动。
光说不练,那是假把式。下面我们透过两个事例实际应用下,你就融会贯通啦。
【事例】
某 App 3 月 10 日-3 月 12 几天的整体充值收入提升非常明显(大于 50%),但是,在整体充值中,占 80% 以上的功能充值的收入下降明显(大于 50%)。这期间可能发生了甚么?
1.如何解读本组数据,写出你对该难题的分析步骤
2.根据上述分析,提出你对该难题的几种猜测
3.如果猜测都是需要解决的难题,请提出你的解决方案,并设计可行性的实验
【分析路子】
根据前面说的「数据挖掘解决难题的步骤」来解决业务难题。
一、明确难题
从时间、地点、。
时间:3.10-3.12 的时间范围内出现难题
地点: 全国地区
:与相关人员沟通后,数据准确无难题
2.业务指标理解
充值收入=付费人数*平均单价
因为难题中还提到收入上升、下降的难题,所以,我们要清楚这是在和谁比。本案例是与之前的收入相比较得出的结论。
我们观察数据发现,整体数据与部分数据呈现出完全相反的结论,也就是题目中所说的,整体充值收入提升了,但是占 80% 以上的功能充值的收入下降了。
这让我们想起了在「多维度拆解数学方式」中讲过的辛普森悖论(考查数据整体和数据不同部分会得到完全相反的结论 ),这是因为只看数据整体无法注意到数据内部各个部分构成要素的差异,忽略差异,导致无法观察到差异的影响。
如何分析这样的难题呢?
可以运用多维度拆解数学方式,把整体拆解成部分,然后查看内部的差异。那么,从哪些方面进行拆解呢?
可以从指标构成维度进行拆解,整体充值=占收入 80% 以上的功能充值(记为原核心充值)+占收入 20% 下列的功能充值(记为其他充值)
整体充值收入提升,其中原核心充值收入下降,根据上图的拆解可以得出,其他充值收入是上升的。
所以,现在的难题明确为:为甚么原核心充值收入下降?
二、分析原因
当需要分析难题出现的原因时,可以使用多维度拆解数学方式对「充值收入」这个指标进行拆解。