产品目录
一、商业性统计数据挖掘基本上概念
1.商业性统计数据挖掘导入
2.甚么是商业性统计数据挖掘?
3.所需专业技能
4.基本上预测业务流程和物流配送全过程
5.商业性认知
6.须要加进的辅助工具
二、统计数据优点1.统计数据发射率
2.统计数据产品质量与方式
3.统计数据显性
三、统计数据挖掘类别、建模与统计数据驱动力合作开发项目组1.相同类别的预测
2.统计数据建模
3.统计数据驱动力合作开发项目组节录:
一、商业性统计数据挖掘基本上概念 1.商业性统计数据挖掘导入
先列出两个事例:
(1)请估算呵呵 2020 年九月份在上海买进有啥双袜子?
显然,这是一个很开放的问题,并不像在学校里的题目都有标准答案,是须要经过自己的思考、定义和预测的。
(2)Corley 主营在网上卖手机壳,根据销售统计数据,发现 8 月份比 7月份购买手机壳的顾客数量下降了 10%,怎么回事?
这也是一个开放的问题,可以从内部和外部两方面来思考问题:
• 外部是手机销售量下降了还是同行业竞争对手出现了,或者经济不景气?物流延迟?
• 内部销售环节出了问题?哪一类用户下降?
重点须要预测背后的原因,因此须要预测问题的能力。
很多时候我们觉得学校学到的东西都没用,那只是因为我们没有将学校的知识与实际应用结合起来。
2.甚么是商业性统计数据挖掘?商业性统计数据挖掘从业要求:
• 基础知识
• 辅助工具
• 业务能力
• 软专业技能举一个例子,拿学武功来说,武功秘籍就是基础知识,宝剑就是辅助工具,在实际练武过程中就得到了面对相同武功和相同对手所须要的方式和技巧,慢慢培养出了业务能力,出神入化之后形成了自己的软专业技能。
基于统计数据通过预测手段挖掘出商业性价值,解决商业性问题,并通过预测商业性问题建立相应的预测模型。
上面的两个事例都可以通过统计数据挖掘的手段得出结论。
3.所需专业技能统计数据挖掘大致分为 5 个阶段:数据获取、统计数据处理、统计数据挖掘与建
模、统计数据解释与呈现、验证及优化。
这五个阶段在上述的基础知识、辅助工具和业务能力方面又有相同的要求,具体如下:4.基本上预测业务流程和物流配送全过程
再举一个事例:
(3)Corley 卖鞋,2020 年 9 月前 10 天就完成了本月计划的 80%,业绩是好还是不好?
可能有人会觉得好,毕竟三分之一的时间就买进了大部分,但是实际上并不一定好:要看整个月的销售情况,如果前 10 天销量处于上升趋势,剩下的时间处于快速下降并保持很低的水平,有可能是完成不了计划的;还好看以前的销售情况,比如说同比销售额,是不是可能比现在还好;和其他竞争对手相比,是否比他们好。销量好或者不好须要从多个维度进行衡量,而不是单纯地给出一个答案;每个行业相同,相应的预测方式和路子也千差万别。一个基本上的预测业务流程如下:
• 认知商业性问题根据具体的商业性场景认知商业性问题。
• 准备阶段根据相应的商业性场景进行计划和准备,需要哪些统计数据、怎么进行预测。
• 统计数据挖掘
• 解释结果物流配送的全过程如下:
原材料供应商
生产商
经销商
销售商
终端客户 预测时,不仅要从销售价格来预测,也要从源头即成本进行预测,处于物流配送的哪个位置;找整个商业性物流配送出现问题的主要环节,找出问题。5.商业性认知
对于一个事件,会有很多因素,可能都会影响到结果。
在商业性统计数据挖掘中,须要进行多维度思考,包括产品、位置、时间等角度,比如零售业中有人、货、场的基本上概念。从点、线、面的角度评价销售业绩:
预测自己 9 月份业绩即为点;
预测与去年同期相比即为线;
与其他人相比即为面。
从原始统计数据中提取出信息,并通过总结得到知识,逐渐积累成为智慧。
6.须要加进的辅助工具
(1)Excel 是最普及的统计数据处理和预测辅助工具,作为 Office 三件套之一,受到各行业广泛的使用,也很容易上手。
(2)思维导图辅助工具,如 XMind、Mind Master 等,可以整理知识体系、梳理思维。
(3)专业的 Python 统计数据挖掘辅助工具 Anaconda,可以进行 Python 基础编程、统计数据挖掘、建模计算等,自带了很多包。
(4)关系型统计数据库软件 MySQL,是最常见的的统计数据库之一,个人一般直接使用社区版即可,可以到 MySQL 官网中下载。
二、统计数据优点 1.统计数据发射率
统计数据存在特定的特点,其中之一为发射率。
较标准的定义为:
统计数据发射率是指统计数据仓库中统计数据的细化和综合程度。
根据数据发射率细化标准:细化程度越高,发射率越小;细化程度越低,发射率越大。
很多时候得到的统计数据为汇总的统计数据,比如对于电商来说,得到了每个月的销售情况,要预测每天的销售情况是不现实的;
而对于原始统计数据,可以为每一种商业性模式确定相应的指标 KPI,比如电商行业的常见指标如下:并且可以使用杜邦预测法评价指标组合进而确定经营业绩,示意如
下:对于 Leader 来说,很重要的一个要求是用户体验好,好的用户体验好主要包括以下方面:
预测业务流程可以进一步细分如下:
• 目标比如设定 PV、DAU(日活)等指标。
• 收集统计数据 • 统计数据探索发现收集到的数据的特点、分布特征,并探索统计数据间的关系。
• 特征工程统计数据中哪些重要。
• 合作开发计算进行建模计算、并产生结果,如线性回归、逻辑回归。
• 评估 假如有一个 JSON 格式的电影评分统计数据如下:现在须要计算谁和谁更相似,对两部电影建立坐标系如下:
每个人的评分都以坐标的方式体现出来,可以通过两者之间的距离计算出来,距离越近则相似度越高,最简单的方式是通过勾股定理计算;
有多部电影则计算多维距离。每个人的评分都以坐标的方式体现出来,可以通过两者之间的距离计算出来,距离越近则相似度越高,最简单的方式是通过勾股定理计算;
有多部电影则计算多维距离2.统计数据产品质量与方式
统计数据有一个很重要的优点是统计数据产品质量。
根据定义,统计数据产品质量是指在业务环境下,统计数据符合统计数据消费者的使用目的,能满足业务场景具体需求的程度。
比如说,调查问卷因为设计不好而导致收集到的结果有失客观性,这就是统计数据产品质量有问题。
衡量统计数据产品质量有一定的衡量指标:
• 重复
统计数据重复是否有意义。
• 完整统计数据探索时判断统计数据是否完整。
• 一致统计数据之间是否一致,比如问卷统计数据前后部分是否符合。
• 时效统计数据一般在某个时间区间内有效。统计数据还有一个优点是统计数据方式,主要包括:
• 结构统计数据具有一定结构的统计数据,如 MySQL 统计数据库中的统计数据,对统计数据类别有一定的限制。
• 半结构统计数据 具有特定的格式,如之前的 json 统计数据就是半结构统计数据,一般来自网站。• 非结构统计数据
文本、图片等文件,没有特定的结构,不能使用常规方式预测。
3.统计数据显性可以从统计数据中挖掘出信息和价值。
再举一个事例:
(4)对于电商行业,怎么预测客户的男女比例:假如有一个客户叫孙悦,昵称是小悦悦,最近老是频繁登录公司的APP,并且总是浏览美妆产品,而且最近三个月购买了大量女鞋和美妆。
那么孙悦是男还是女呢?
要判断一个客户是男性还是女性,可以从以下指标出发:最简单的方式:
男性概率=姓名倒数第一个字男性概率×权重1+姓名倒数第二个男性概率×权
重 2 女性=1–男性概率这个模型只是依据姓名来判断的,较为单一。更进一步的预测:在姓名判断性别概率的基础上,再依据消费行为(如购买剃须刀)的特征判断性别概率,并确定权重计算加权概率。这是一个分类问题。
进行统计数据挖掘的好处:
• 搞清事实预测事情的好坏。
• 接近真相可以发现真相的可能情况。
• 预测未知比如预测消费曲线。
• 帮助决策如智能投顾。
三、统计数据挖掘类别、建模与统计数据驱动力开 发项目组 1.相同类别的预测 相同类别预测的复杂度和价值如下:其中,描述性预测用于描述当前情况,比如分布、曲线等;诊断预测主要预测问题原因,可能须要进行建模;预测预测主要预测未知,包括自动化推荐系统、销量预测;指导预测用于指导行动。随着难度的加大,所须要的统计数据也越来越多、辅助工具越来越复杂。
常见的预测框架如下:具体包括SVM、决策树、逻辑回归、神经网络、线性回归、Kmeans、分层聚类等理论模型。
2.统计数据建模有了预测的结果,须要进行报告,其中建模不可缺少,须要将结
果呈现出来。
同时在统计数据探索时,统计数据建模可以让我们更加直观地了解统计数据所
呈现出的特点。
一个图表示意如下:显然,左右两部分都是有问题的:
标题不规范;
刻度不一致,不协调;
坐标轴起点;
两个表的差距感觉相同,但实际上差别是一样的。3.统计数据驱动力开发项目组一个典型的统计数据驱动力合作开发项目组的成员如下:
左侧负责统计数据挖掘,右侧负责项目合作开发,须要相互协调和配合。