就像建新房子须要草图那样,数学认识论是统计数据挖掘师的辅导依照。上面他们讲一讲新颖的统计数据挖掘方式,协助我厘清统计数据挖掘路子。我将主要就透过下列两个各方面来传授常见的数学方式:
一、认识论树数学方式
1.认识论树又称为难题树,诠释树或降解树等,是将繁杂难题回收成二个单纯的子难题,像树叶那样逐渐展开。认识论树的促进作用主要是协助你厘清他们的路子,防止展开多次重复和毫无关系的思索,能确保解决难题的操作过程准确性。
认识论树的采用须要遵从下列四个准则:
基本要素化:把完全相同的难题归纳概括成基本要素。
架构化:将各基本要素组织机构成架构,严格遵守太重了出的准则。
关连化:架构内的各基本要素维持必要性的相关连,单纯而不孤立无援。
2.应用领域情景
狄拉克难题:在学术研究中用以做量纲预测、估计和明晰地校正一个假定的两类估计难题。
假如复试中让你提问狄拉克难题,只不过主要是在实地考察你的预测观念。
例:广州有啥个商品副经理?
透过认识论树数学方式,他们可以把它降解如下表所示:
1)子难题1:广州有啥家互联网子公司?
2)子难题2:各家子公司商品副经理的约莫占比是啥?
子难题汇整:广州商品副经理数目=子公司数目 X 各家子公司商品副经理的占比
二、PEST数学方式
1.PEST数学方式:Politics(政治)、Economy(经济)、Society(社会)、Technology(技术)
PEST预测法是战略外部环境预测的基本工具,它透过政治的、经济的、社会的和技术的角度或四个各方面的因素预测从总体上把握宏观环境,并评价这些因素对企业战略目标和战略制定的影响。
构成政治环境的关键指标:政治体制,经济体制,财政政策,税收政策,产业政策,投资政策,专利数目,国防开支水平,政府补贴水平,民众对政治的参与度等。
构成经济环境的关键指标:GDP及增长率,进出口总额及增长率,利率,汇率,通货膨胀率,消费价格指数,居民可支配收入,失业率,劳动生产率等。
构成社会环境的关键指标:人口规模,性别比例,年龄结构,出生率,死亡率,种族结构,妇女生育率,生活方式,购买习惯,教育状况,城市特点,宗教信仰状况等。
构成技术环境的关键指标:新技术的发明和进展、折旧和报废的速度,技术的更新速度,技术的传播速度,技术商品化速度,国家重点支持项目,国家投入的研发费用,专利个数,专利保护情况等。
2.应用领域情景:
•当子公司须要了解外部环境来制定发展战略时;
•面对重大难题,须要预测行业发展情况时。(如:中国少儿编程行业研究)
三、多维度回收数学方式
1.定义:从多个角度思索,展开回收预测。
角度是维度。回收是将一个大难题回收成小难题,找到对的难题展开预测。
2.如何用?
1)指标构成:指标从各角度回收,然后从每个角度继续细分,直到找到关键难题。遵从准则,完全独立,相互穷尽。
2)按业务流程回收:按照该难题涉及的关键业务流程回收,逐一对每个流程展开预测。
3.案例预测
1)从构成指标的角度来拆分,如下表所示图:
2)透过上图他们发现透过渠道A来的新用户最多,但是是不是说明渠道A来的用户质量最高呢?具体他们可以从业务流程来回收。如下表所示图:
按业务流程回收后,他们发现B渠道来的用户数购买数目要高于渠道A,即转化率要高于渠道A。所以B渠道的用户质量更好。
4.注意辛普森悖论现象:是当你把统计数据拆开细分后发现,细节和整体趋势完全不同的现象。
四、对比预测法
1.定义:没有对比就没有好坏。
2.如何用?
和谁比?1)和他们比 2)和行业比
先比整体(计划和实际),再比局部(整体的各局部)。先找差距(谁大谁小),再找变化(不同时间内的变化)。先比内部,再比外部(行业)。
如何比较?
1)统计数据整体的大小:平均数,中位数
2)统计数据整体的波动:变异系数
3)趋势变化:时间折线图,环比和同比
3.应用领域情景
1)价格锚点:商品价格的对比标杆。营销中,企业透过各种锚点招数,或者利用对比和暗示来营造幻觉的手段,动摇人们对于货币价值的评估。在消费者眼里,商品的价值是“相对存在的”,这件商品到底值不值这么多钱,这个定价到底实惠与否,都须要一个可供参照的标准。价格锚点是商家设定的参照标准。
2)透过对比来追踪业务是否有难题
3)A/B测试:APP功能设计用A版本(实验组)和B版本(对照组)实验,透过对结果的对比预测来决策用哪个版本。
4.注意事项:
比较对象的规模要一致。五、假定检验数学方式
1.定义:原理是认识论推理。用以判断样本与样本,样本与总体的差异是由抽样误差引起还是本质差别造成的统计推断方式。其基本原理是先对总体的特征作出某种假定,然后透过抽样研究的统计推理,对此假定应该被拒绝还是接受作出推断。
假定检验的步骤:
2.有什么用?
1)提高认识论观念能力
2)归因预测:预测难题发生的原因
3.如何用?
1)维度角度:他们可以按照维度来回收
a.提出假定:
b.从下列角度中收集证据。
用户行为难题(运营部):如按用户渠道回收及按采用的业务流程回收
商品难题(商品部):如商品是否符合用户需求。
竞品(市场部):如同一时期,考察竞争对手是不是有优惠活动从而抢夺了用户。
C.透过对上述角度,对统计数据指标展开预测,然后得出结论。
2)子公司角度:4P营销理论
3)业务流程角度:从用户采用的业务流程提出假定
如:
4.注意事项
1)不能主观猜测,用统计数据来证明结论
2)多次重复主观操作过程,多问两个为什么,用统计数据校正你的结论,找到难题根源
3)灵活运用多个数学方式
4)作预测路子图,厘清路子
学习完以上的统计数据挖掘方式后,我再次对淘宝天猫婴儿用品统计数据挖掘路子整理,如下表所示图: