纯粹从销售业务视角如是说统计数据数据挖掘的该文许多,比如说透过各种预测模型预测统计数据数据;纯粹从技术视角如是说统计数据数据挖掘的该文也许多,比如说怎样采用Excel,如果写SQL,怎样采用相同的预测工具等。责任编辑无意多次重复,尝试换两个视角,从认识论的视角如是说下我对统计数据数据挖掘的认知。
责任编辑主要从统计数据数据挖掘的原素,统计数据数据的进行分类,统计数据数据挖掘的方法三个方面论述。
首先chicourt统计数据数据挖掘的原素。
这儿,原素指的是他们在预测统计数据数据时须要考量四方面的基本内容。
第一,是明晰统计数据数据的覆盖范围,比如说是别的天数段,别的区域,那个销售业务类型的统计数据数据。所谓明晰统计数据数据覆盖范围指的是在做统计数据数据挖掘的这时候,心里要记得这个统计数据数据覆盖范围,不然就可能将得出严重错误的结论。比如说,经典的生还者局限性的案例,第二次世界大战中有人基于回航的直升机主要是主翼职能部门负伤认为应该在主翼部分加强防护,就是典型的忽略了统计数据数据覆盖范围而做出严重Rewa的情况。导致严重错误的原因在于搞错了统计数据数据挖掘的覆盖范围,是回航的直升机,而不是全部派出去的直升机,即使即使机翼负伤的飞机可能将压根儿就没有回来。
第二,是明晰统计数据数据的发射率,指的是统计数据数据的厚薄程度。比如说,他们统计数据买卖数额,是统计数据每天的,却是每周的,却是每月的。统计数据数据发射率越粗预测就越宏观,反之就越宏观。明晰统计数据数据发射率,能够保证统计数据数据挖掘的这时候明晰统计数据数据的销售业务含义有更深刻的认知。同时,统计数据数据发射率在构筑统计数据数据源的这时候也非常关键。比如说,他们有三个统计数据状态参数,表A是订货关键信息,包涵订货ID和订货数额X。表B是备注关键信息,包涵订货ID,货品ID和每个产品的数额Y。这样三张表单,表A的发射率是订货,表B的发射率是货品,即使一张订货可能将包涵多个货品,显然表B的统计数据数据发射率细。所以,如果透过订货ID把三张表关连起来的话,就会出现即使三张表发射率相同,使得表A被拆行,从而造成订货数额统计数据数据多次重复的严重错误。
第三,是明晰统计数据数据的发展史。这儿的发展史指的是统计数据数据反应的是何时能的状态。这个难题之所以关键是即使这会影响统计数据数据的归属于。比方说,假设有两个员工之前在职能部门A,后来职位调整,加入到职能部门B。所以他们在统计数据A,B三个职能部门的发展史人数的这时候,就要考量统计数据数据的发展史难题。再进一步讲,实际是买卖统计数据数据和天数有关主统计数据数据关连的难题。对于两个天数有关的主统计数据数据,在和买卖统计数据数据关连的这时候,就须要考量以何时能的主统计数据数据为依据进行关连。是选用买卖发生的天数的主统计数据数据进行关连,却是选用最新的主统计数据数据须要明晰,不然也会引起统计数据数据严重错误。
其次,聊聊统计数据数据进行分类。
这儿会从三个视角阐述进行分类:层次和测度,主统计数据数据和买卖统计数据数据。
1. 层次和度量。
他们知道,任何统计数据数据报表都是由一些统计数据状态参数头组成的。从表头属性上,这些表头可以分为两类。两类称之为层次,两类称之为测度。为方便认知,他们以下表为例说明。
年级学生姓名课程名称年龄成绩四班小华数学896三班小红外语798在上表中,年级,学生姓名,课程名称和年龄是层次,成绩是测度。之所以这么区分,道理也很简单。层次是用来描述一条记录的,一般是谁,什么天数,什么地点,什么类型等等。测度是用来记录多少的,而且,测度是可以统计数据的,比如说计算总量,平均值,方差等等,而层次不可以。这儿须要特别注意,有些表头虽然看起来是数字,但是不代表一定就是测度。比如说这儿的年龄,虽然是数字但是属于层次,是用来描述学生的关键信息。
2. 主统计数据数据和买卖统计数据数据
主统计数据数据指的是关于销售业务实体的统计数据数据,描述组织内的“物”,如:人,地点,客户,产品等,是具有共享性质的基础统计数据数据,一般来讲主统计数据数据的变更相对不频繁。买卖统计数据数据是描述组织销售业务运营过程中的内部或外部事件或买卖记录。如:销售订货,通话记录等。买卖统计数据数据的变更相对比较频繁。
把统计数据数据分为主统计数据数据和买卖统计数据数据有三个主要的好处。
两个是基于这样的进行分类设计统计数据数据库表存储方式有利于节省存储资源。在买卖统计数据数据中涉及到的主统计数据数据一主统计数据数据的详细关键信息多次重复出现在买卖表中,节省存储空间。
把统计数据数据分为主统计数据数据和买卖统计数据数据更主要的好处是能够更好的做统计数据数据治理。一方面,主统计数据数据变更的话,更新两个主统计数据状态参数,所有管理的买卖统计数据数据会自动更新,避免了统计数据数据不一致。另一方面,在公司内部相同系统之间,选用相同的主统计数据数据ID,可以方便的实现统计数据数据的互联互通,实现统计数据数据共享。
最后,聊聊统计数据数据挖掘的方法。
这儿的方法并不是销售业务预测中的比如说那些AAARR,RMF之类的预测框架,而是从更本质的视角尝试解读,他们在说统计数据数据挖掘的这时候,到底是在说什么。
首先,统计数据数据挖掘离不开对比。
单独给出两个统计数据数据而没有对比是没有任何意义的。例如,基于双十一阿里的买卖额是xxx亿,他们是不能得出有意义的判断的,必须加入对比。比如说,相同年份的对比,相同省份的对比,相同客户群的对比,相同货品品类的对比等等。
这儿实际是把统计数据数据从相同视角做了两个分解。更具体一点,套用层次和测度的概念,是把测度用相同的层次做分解。而且这个分解的动作可以不止一次,比如说可以先按照年度进行分解,再按照省份进行分解,或者反过来,先按照省份分解,再按照年度分解。更深的分解以此类推。
有意思的是,分解层次的顺序有这时候决定了他们预测效率。比如,他们有一份关于口红的销售统计数据数据,先按照性别分解的话,大概率他们会发现女性消费者的数量远远大于男性消费者。但是如果他们不是先按照性别分解的话,所以这个结论就不会所以快被发现了。虽然这个例子中,女性消费者多于男性是两个不用预测都可以知道的判断,但是对于一些更复杂的场景,怎样选定关键的层次作为优先分解的层次就显得非常关键了。
其次,统计数据数据挖掘离不开建模。
建模之所以关键是即使,透过建模可以把相同统计数据数据源的关键信息整合到一起。上文提到的表A和表B的关连就是建模最常见的形式。建模之后,他们可以有更多的预测视角(层次),也可以有更多的预测对象(测度)。
在大统计数据数据的背景下,可供建模的统计数据数据源可能将有非常之多。所以哪些统计数据数据需要建模,哪些不须要建模呢?在构筑统计数据数据平台的这时候,是不是应该把统计数据数据源都构筑好,这样才是最好的办法呢? 我个人认知,答案是否定的,他们不可能将,也不必要事先把所有的统计数据数据都透过建模的方式关连起来。原因在于是不是须要把相同的统计数据数据关连起来,是基于需求的,需求的不确定决定了建模的不确定。比方说,如果他们须要从客户的视角预测销售情况,则应该把客户关键信息和销售统计数据数据关连起来;如果须要从产品的视角预测销售情况,则应该把产品关键信息和销售统计数据数据关连起来。
试图把所有可能将情况提前考量到并建模,虽然理论上可以但是实践中却不推荐,即使这样会造成浪费。借用二八原理,可能将80%的预测场景是由20%的模型支持的,所以只须要把这20%的模型提前设计好,至于其他的,等须要的这时候再去构筑不失为一种更好的做法。虽然这样可能将增加一些建模的天数,但是却会节省大量的前期准备模型的工作量。
再次,统计数据数据挖掘能回答什么难题。
回到难题的本质,他们为什么要做统计数据数据挖掘?其实是为了回答难题。所以都有什么难题呢?其实,难题无非以下几类:是什么?为什么?怎么做?将来怎么样?
是什么的难题最简单,透过对统计数据数据的抓取,清洗,转换就可以得到。
为什么的难题要相对复杂一点,一般有两种思路:两个是对比预测,透过层次统计数据数据分解找到造成统计数据数据差异的关键要素。另两个是有关性预测,即试图找到相同层次间的某种关连关系,进而基于销售业务知识判断是否具有有关性。比如说著名的啤酒和尿布的例子,就是透过对超市统计数据数据的预测发现购买啤酒的消费者大概率也会购买尿布。
怎么做的难题其实是和为什么的难题关连的,这儿更多的是基于对为什么这个难题的回答而做出的销售业务判断。比如说,如果发现口红的销售统计数据数据中,女性消费者明显多于男性,所以在考量广告推送的用户人群时,应该主要推送给女性而不是男性。再比如说,如果他们发现啤酒和尿布具有有关性,所以在超市货品摆放时,可以有意把两种货品放在一起,这样增加购买的概率。
这儿,关于有关性再展开一点。他们须要注意,有关性和因果性是不一样的,具有有关性的两件事不一定具有因果性。却是用刚才的例子,啤酒和尿布就是典型的有关性案例,不具有因果性。他们并不能透过试图提高啤酒的销量就能提高尿布的销量,即使啤酒销量高并不是尿布销量高的原因。背后真正的原因,可能将是即使妈妈都在家里照顾宝宝,逛超市的任务都是奶爸完成的吧。
将来怎么样的难题,对于统计数据数据挖掘来说,其实本质上是基于发展史统计数据数据对将来做预测。这儿须要注意,有两个关键的前提假设,那就是发展史必须是可多次重复的。如果发展史压根儿不多次重复,所以基于发展史统计数据数据推测将来就从根本上有难题。比如说,现在许多所谓的量化投资其实就是利用计算机股票买卖统计数据数据进行预测,尝试找到某种规律,进而预测股票的涨跌。在我看来,量化投资中用到的统计数据数据预测方法从根本上就是有难题的,当然这是另外的话题,就不在这儿展开了。
最后,却是总结以下吧。责任编辑从统计数据数据挖掘的原素,统计数据数据的进行分类方式和统计数据数据挖掘的方法三个视角阐述了我对统计数据数据挖掘的认识论的认知。欢迎大家交流讨论!