有一位刚入职统计数据挖掘师的老师,他递交了这份7月统计数据挖掘调查报告给领导,调查报告里面放了许多图象,也摆了许多统计数据,结果被痛斥了痛打,觉得很为难。其实,那位老师与许多爸爸妈妈一样,做统计数据挖掘时,拿着手上的统计数据不知道怎么预测、从什么层次预测。
今天闲谈就来给大家撷取7种最常见的统计数据挖掘方式,让你随心所欲利用统计数据挖掘解决实际组织工作问题,提高核心理念竞争优势。
一、棒状预测方式棒状预测方式能够科学反映使用者犯罪行为状态,以及从终点到终点各阶段使用者转换率情形,是一类重要的Kaysersberg。棒状Kaysersberg已经广泛应用领域于中文网站和APP的使用者犯罪行为预测中,比如说网络流量监视、CRM系统、SEO强化、商品网络营销和销售等日常生活统计数据营运与统计数据挖掘组织工作中。
比如说:Data Analytics为中文网站制做的“打折活动预测”
比如说,对一些B2C商品而言,最后目的是让使用者付款并缴付,但转换率依赖于整个业务流程。这时,他们就能通过棒状数学模型一步棋一步棋地展开监控。如下表所示图右图,他们能监视使用者在业务流程中各层次上的犯罪行为方向,找寻每个层次的可强化点。对没有按照业务流程操作的使用者绘出他们的转化成方向,找到可提高使用者新体验,延长方向的空间,最后提高总体转换率。
棒状数学模型除了在B2C中应用领域的较为多之外,在破冰页、H5等也应用领域的较为多。他们能反反复复强化破冰页之中的相片、美术设计、产业布局,进一步棋的提高总体转换率。
二、存留预测方式存留预测方式是一类用以预测使用者参与情形和活耀程度的Kaysersberg,实地考察展开如上所述犯罪行为的使用者中,有多少人能展开先期犯罪行为。从使用者的视角而言,存留率越高就说明这个商品对使用者的核心理念需求也把握的越好,转化成成商品的活耀使用者也会更多,最后能帮助公司更好的盈利。
这里需要注意的是,在做存留预测之前,他们首先需要了解使用者存留的特点:
比如说,他们能通过观察不同时间段使用者存留的情形,通过对比各渠道、活动、关键犯罪行为的使用者先期存留变化,发现提高使用者存留率的影响因素,比如说观察领取过优惠券的使用者存留率是否比没有领取优惠券的使用者存留率更高。
除此之外,还能针对流失高/存留高的使用者群组展开一对一的使用者犯罪行为预测,统计存留/流失使用者的犯罪行为特征,特别是针对流失使用者,通过流失使用者的犯罪行为预测总结流失原因,从而提高存留率。具体步骤如下表所示图右图:
三、分组预测方式
分组预测方式是根据统计数据挖掘对象的特征,按照一定的标志(指标),把统计数据挖掘对象划分为不同的部分和类型来展开研究,以揭示其内在的联系和规律性。
分组的目的就是为了便于对比,把总体中具有不同性质的对象区分开,把性质相同的对象合并在一起,保持各组内对象属性的一致性、组与组之间属性的差异性,以便进一步棋利用各种统计数据挖掘方式来揭示内在的数量关系,因此分组法必须与对比法结合利用。
如图右图,分组预测在日常生活工作中应用领域的较为多的是使用者分层与分群,比如说在发优惠券的时候,能通过红包,满减,限时券还有积分券等方式。他们能针对不同的使用者发送不同的优惠券以达到精细化营运的效果。那么当他们在做统计数据挖掘时,也能从结果将使用者展开分层来展开判断,这时同样也能得到强化和改进业务的建议。
说了完使用者分层,接下来他们说说使用者分群。使用者分群和使用者分层其实是相关联的,使用者分群是对使用者分层的补充,当使用者差异性较大,层次上不能再做使用者细分时,能考虑将同一个分层内的群体继续切分,满足更高的精细化营运需要。
“客户RFM群体预测”
RFM数学模型是客户管理中的一个经典方式,它用以衡量消费使用者的价值和创利能力,是一个典型的使用者分群。它依托收费的三个核心理念指标:最近一次消费时间(Recency)、消费频率(Frequency)和消费金额(Monetary)。
消费金额Monetary:衡量使用者对企业利润的贡献,消费金额越高的使用者,价值也就越高。
消费频率Frequency:衡量使用者的忠诚度,是使用者在限定的期间内购买的次数,最常购买的使用者,忠诚度也越高。
最近一次消费时间Recency:衡量使用者的流失,消费时间越接近当前的使用者,越容易维系与其的关系。1年前消费的使用者价值肯定不如一个月才消费的使用者。
四、矩阵预测方式
矩阵预测方式是指根据事物(如商品、服务等)的两个重要属性(指标)作为预测的依据,展开分类关联预测,找出解决问题的一类预测方式,也称为矩阵关联预测方式,简称矩阵预测方式。
矩阵关联预测方式在解决问题和资源分配时,能为决策者提供重要参考依据——先解决主要矛盾,再解决次要矛盾,这样有利于提高组织工作效率,并将资源分配到最能产生绩效的部门、组织工作中,最后有利于决策者展开资源强化配置。
比如说在B2C行业,他们能使用浏览量和加购数这两个层次来展开矩阵预测,如图右图,左上角的是浏览量低的,然后加购次数多的,这说明商品其实是有很大潜力的,这时需要将这部分商品放在更好的位置让给使用者展开浏览;右下角的浏览量高,但加购数低的,说明这个时候他的资源位置是好的,但是使用者对这部分的商品并不感兴趣的,他们就需要对其展开相应的位置调整。
五、关联预测方式
关联预测方式是一类简单、实用的预测技术,是指从大量统计数据集中发现项集之间的关联性或相关性。若两个或多个变量的取值之间存在某种规律性,就称为关联。关联可分为简单关联、时序关联、因果关联等。
关联预测的一个典型例子是购物篮预测。该过程通过发现顾客放入其购物篮中的不同商品之间的联系,预测顾客的购买习惯。通过了解哪些商品频繁地被顾客同时购买,帮助零售商制定网络营销策略。其他的应用领域还包括价目表设计、商品打折、商品的排放和基于购买模式的顾客划分。
可从统计数据库中关联预测出形如”由于某些事件的发生而引起另外一些事件的发生”之类的规则。如“67%的顾客在购买啤酒的同时也会购买尿布”,因此通过合理的“啤酒和尿布”的货架摆放或捆绑销售可提高超市的服务质量和效益。
六、指标预测方式
在实际组织工作中,当拿到一些可视化统计数据图象或者是Excel表格时,他们能直接利用统计学中的一些基础指标来做统计数据挖掘,比如说平均数、众数、中位数、最大值、最小值等,下面他们分别来介绍:
1.平均数
平均数、也叫平均预测方式,是指利用计算平均数的方式来反映总体在一定时间、地点条件下某一数量特征的一般水平的预测方式。平均预测方式常见指标有算术平均数、调和平均数、几何平均数、众数和中位数等,其中最为常见的是算术平均数,也就是日常生活所说的平均数或平均值。
平均数指标可用于对比同类现象在不同地区、不同行业、不同单位等之间的差异程度,比用总量指标对比更具说服力。除此之外,利用平均指标对比某些现象在不同历史时期的变化,也更能说明其发现趋势和规律。
一些强化;②内部:针对每个月都在尝试的各种选题和内容营运策略,能预测本月比上月平均打开率又增加了多少,这个月的选题是否有一些爆款,爆款文章平均打开率是多少,标题有什么特点等等。
2.众数、中位数
众数也就是统计数据中的一类代表数,它反应的是统计数据的一类集中程度。比如说说最佳,最受欢迎,最满意都与众数有关。众数本质上而言,反映的是统计数据中发生频率最高的一些统计数据指标,在做统计数据挖掘时,他们能对这些统计数据指标提取一些共性的特点,然后展开提炼和总结,然后得出一些改进的意见。
中位数主要是反映的是一组统计数据的集中趋势,像他们较为常见的正态分布,比如说说他们想去统计某市的人均收入,其实,大部分的人均收入都是在一定范围之内的,只有少部分是处于最低的和最高的,其实这是中位数带来的意义。
在做统计数据挖掘时,如果各统计数据之间的差异程度较小,用平均值就有较好的代表性;而如果统计数据之间的差异程度较大,特别是有个别的极端值的情形,用中位数或众数有较好的代表性。
3.最大(小)值
最大(小)值在平时做统计数据挖掘组织工作时较为常见,只是他们没有特别去注意。最值是作为典型代表和异常值展开预测的,比如说说销售团队里的销售冠军,B2C爆款商品等,如图右图,他们能将销售额最大的几款商品提出来,然后他们去总结共性,找到原因,然后复制到其他的商品,最后提高平均转换率。
七、对比预测方式
对比预测方式是指将两个或两个以上的统计数据展开较为,预测它们的差异,从而揭示这些统计数据所代表的事物发展变化情形和规律性。它能非常直观地看出事物某方面的变化或差距,并且能准确、量化地表示出这种变化或差距是多少?对比预测方式可分为静态较为和动态较为两类。
静态较为:在同一时间条件下对不同总体指标的较为,如不同部门、不同地区、不同国家的较为、也叫横向较为,简称横比;
动态较为:在同一总体条件下对不同时期指标数值的较为,也叫纵向较为,简称纵比。
这两种方式既可单独使用,也可结合使用。
展开对比预测时,能单独使用总量指标、相对指标或平均指标,也可将它们结合起来展开对比。较为的结果可用相对数表示,如百分数、倍数等指标。
在使用对比预测方式时,需要先注意以下几个方面:①指标的口径范围、计算方式、计量单位必须一致,即要用同一类单位或标准去衡量;②对比的对象要有可比性;③对比的指标类型必须一致。无论绝对数指标、相对数指标、平均数指标,还是其他不同类型的指标,在展开对比时,双方必须统一。
1.时间层次对比
同一指标在不同时间层次下的对比,如同比、环比、定基比等。同比就是与去年的同一个时间段展开对比预测,能是季、月、周、天;环比就是和上一个时间段来对比(也有和下一个时间段对比的,也叫后比),比如说本月和上月,本周和上周对比;定基比是和某个指定的时期展开对比预测,比如说2013年每个月都和2013年1月的销售额展开对比取值。
如图为各月销售额对比,时间范围一致(均为月汇总)、指标一致、指标含义一致、其表现的为整个企业信息,总体性质可比。
2.空间对比
就是不同空间统计数据的对比,比如说华北区和华南区对比,北京和上海,上海古北店和成都春熙路店展开对比。相似空间的对比对象必须是形态上较为接近,先进空间则是和同一类形态中的优秀空间展开对比,与扩大空间的对比,比如说北京和全国的统计数据对比,北京王府井店和全北京的统计数据对比,和竞争对手的对比也在此列。
如图为2018年全年各销售小组销售额对比,其对比的时间范围一致、指标一致、指标含义一致、层次为各销售小组,具有相同性质。
3.计划对比
和计划标准的对比是销售追踪中非常重要的一环,所有的绩效考核都是计划标准,比如说销售实际达成金额与销售计划达成金额对比,看销售是否完成当初指定的计划,如果没有完成,原因在哪里。
4.与经验值或理论值对比
其中的经验标准是在大量的实践过程中总结出来的值,而理论标准则是根据理论推断出来的值,平均值则是某一空间或时间的平均值。如,一单一品率:所有销售小票中只有一个商品的小票数量占比。参考值为小于40%,如果统计数据超过了40%,则需要考虑如何调整策略,帮助客户做关联购买。而参考值小于40%,就是一个理论值。
以上就是7种常见的统计数据挖掘方式,在不同领域的组织工作中,它们通常都是以不同的形式展现出来的,他们需要在拥有统计数据面前,清晰知道应用领域哪一个或几个方式来预测实际问题最为有效,结合场景灵活利用,没有最好的预测方式只有最适合的。