一. 明确提出难题和应用领域数学模型
1.此次预测的目地是想透过对淘宝网选用者犯罪行为展开数据预测,为下列难题提供更多说明和改良提议:
(1)预测选用者选用APP操作过程中的常用B2C预测分项,确认各个全操作过程的外流率。
(2)借助状态参数思想预测外流其原因,找寻须要改良的全操作过程。
(3)研究选用者在相同天数孔径下的犯罪行为规律性,预测相同孔径下的转换率。
(4)找寻选用者对相同类型货品的偏爱和特别针对相同货品的网络营销思路。
(5)将选用者群依照商业价值分割,并特别针对相同的选用者群明确提出网络营销提议。
2.应用领域预测数学模型
(1)如前所述AARRR棒状数学模型预测选用者犯罪行为
责任编辑透过常用的B2C数据预测分项,选用AARRR棒状数学模型回收选用者步入APP后的任一步犯罪行为。AARRR数学模型是依照选用者选用商品全业务流程的相同期展开分割的,特别针对任一全操作过程的选用者外流情况预测出相同全操作过程的强化错误率,主要透过下列个各期来展开预测:
AARRR棒状数学模型(2)如前所述RFM数学模型找寻有用的选用者
由于相同选用者对公司增添的投资收益差异很大,所以依照一九运动定律(20%的有用选用者能增添80%的投资收益),因此须要对选用者展开商业价值赞扬,找寻最有用的选用者群,并特别针对该些选用者展开综合化网络营销。这儿参考RFM 数学模型对选用者展开赞扬:
R-Recency(前段时间一场买回天数)
R指选用者上一场消费需求的天数,上一场网购天数旧石器时代前段时间的客人一般来说在上周积极响应网络营销公益活动的几率也最小,对于APP来说,好久没有网购犯罪行为可能意味著选用者舍弃了APP的选用,再次唤醒选用者也须要更多的生产成本。
F-Frequency(消费需求频率)
F指选用者在某段天数内的网购次数,消费需求频率越高意味著该些选用者对商品的满意度最高,选用者粘性最好,忠诚度也最高。
M-Money(消费需求金额)
M指选用者在某段天数内的网购金额,这也是为公司增添商业价值的最直接体现,而消费需求金额较高的选用者在选用者总体中人数较少,却能创造出更多商业价值,是须要重点争取的对象。
这三个维度互相关联,反映了每个选用者的现在商业价值和潜在商业价值,将每个维度分成R-5,F-5个区间展开评分,透过计算分数对选用者展开分类,可以有特别针对性地对相同类型选用者选用相同的网络营销思路。
二. 理解数据
阿里云天池:tianchi.aliyun.com/data
数据集包含了2017年11月25日0:00至2017年12月4日0:00之间(共9天),淘宝网APP移动端选用者犯罪行为数据。由于总记录为1亿条,数量过大,此处只处理200万条数据作为代表,该些数据中包含19544名选用者(按user_id分割)的犯罪行为记录。
2.各字段含义
因为数据量太大,直接用excel打不开,这儿透过python输出数据的前5行,查看大体格式。
import pandas as pddata=pd.read_csv(UserBehavior.csv)
print(data.head())输出结果如下图所示:
借助python查看表头信息这儿也可以看出此文件是没有字段名的,因此导入数据库时须要自己创建表头信息。
数据说明3.数据导入
(1)新建数据库userbehavior;(在navicat中完成)
(2)因为源数据没有字段名,所以要先创建表头信息,设置主键
create table user(
id int not null,
item int not null,
behavior varchar(10) not null,
category int not null,
times int not null,
constraint id_behave primary key(id,item,times));三.数据清洗
1.列名重命名
建表时已经将原有列名简化,id表示选用者ID,item表示货品编号,behavior 表示选用者犯罪行为,category表示货品类别,times表示天数信息。选用rename函数也能改。
2.一致化处理
天数数据中的日期和小时存在于一列中,为了方便研究每天和一天内每小时选用者的犯罪行为变化,将其按date和time拆分成两列。
将天数戳转换为日期类型
set sql_safe_updates=0;
alter table user add column datetime timestamp(0) null;
update user set datetime = from_unixtime(times);天数戳转换为日期类型将其按date和time拆分成两列
alter table user add column date char(10) null;–增加date一列
update user set date = substring(datetime from 1 for 10);–取出年-月-天
alter table user add column time char(10) null;–增加time一列
update user set time = substring(datetime from 12 for 2);–取出小时年-月-天和小时分成两列3.异常值处理
删去11-25至12-03日以外的数据
delete from user where datetime<2017-11-25 00:00:00 or datetime>2017-12-04 00:00:00;四. AARRR数学模型预测
借助AARRR数学模型,预测选用者犯罪行为和留存、外流情况,此处数据主要涉及选用者刺激和买回转化的全操作过程,即选用者从浏览到最终买回整个操作过程。
1.日新增选用者统计首先依照id分组,依照date组内排名,确认每个选用者第一场登录的天数,筛选出的排名为1的数据即作为选用者第一场登录的数据。再依照date分组,统计每日第一场登录的选用者数即为新增选用者数。
将每个选用者的登录天数排名
select *, row_number() over (partition by id order by date) as user_rank from user统计每日新增选用者数DNU
select date,count(id) as DNU from
(select *, row_number() over (partition by id order by date) as user_rank from user) as A
where A.user_rank=1 group by date order by date asc;预测:新增选用者在11月25日为13927人,处于最高水平,后逐日递减。推测11月25日前后可能存在促销公益活动或拉新公益活动。
2.选用者留存率预测
第N日留存率=新增日之后的第N日再次登录的选用者数/第一天新增总选用者数。
依次算出每日留存人数
select date,count(distinct id) as 留存人数,
count(distinct id)/(select count(distinct id) from user where date=2017-11-25) as 留存率 from user
where id in (select distinct id from user where date=2017-11-25)
group by date order by date asc;每日留存率预测:由上表可知,11-25之后的8日内留存率均在75%以上,且12月2日-3日的留存率超过98%,说明客户较为稳定,浏览意愿极为强烈。说明客户较为稳定,浏览意愿极为强烈。可能是前期的拉新公益活动效果较好,每日打卡领金币调动了选用者的积极性,为冲刺双十二做准备。
3.相同天数孔径下选用者犯罪行为模式预测
创建选用者犯罪行为视图(按天)
create view user_behavior as
SELECT date,
SUM(CASE WHEN behavior=pv THEN 1 ELSE 0 END)AS 浏览数,
SUM(CASE WHEN behavior=fav THEN 1 ELSE 0 END)AS 收藏数,
SUM(CASE WHEN behavior=cart THEN 1 ELSE 0 END)AS 网购车,
SUM(CASE WHEN behavior=buy THEN 1 ELSE 0 END)AS 付费数
FROM user
GROUP BY date
ORDER BY date每天选用者犯罪行为预测:这9天中,11月25日至12月1日选用者浏览量变化幅度小,范围在18万到20万之间,12月2日-3日有较大幅度增加,对比同样是周末的11月25日-26日,pv无明显上涨,因此认为12月2-3日的上涨可能与周末的双十二预热网络营销公益活动效果有关。
创建选用者每小时的行为视图(按小时)
create view time_behavior as SELECT time,
SUM(CASE WHEN behavior=pv THEN 1 ELSE 0 END)AS 浏览数,
SUM(CASE WHEN behavior=fav THEN 1 ELSE 0 END)AS 收藏数,
SUM(CASE WHEN behavior=cart THEN 1 ELSE 0 END)AS 网购车,
SUM(CASE WHEN behavior=buy THEN 1 ELSE 0 END)AS 付费数
FROM user
GROUP BY time
ORDER BY time预测:
(1)1-6点选用淘宝网的人数处于低峰,可能是因为此时大部分选用者都处于睡眠状态有关;6 -10点选用人数逐渐增多,10-18点选用量趋于稳定状态;18-21点选用者犯罪行为逐渐活跃,可能与选用者下班后有天数选用淘宝网网购有关,晚间21-23点达到高峰值,这个天数段是大部分人群的睡前天数,和人们喜欢在睡前网购的心理有关。夜间23-1点(次日)可能是部分人群步入睡眠,导致选用人数下降。
(2)晚间22-23点为加购峰值,商家可以此时在网购车页面加大公益活动力度或发红包补贴,刺激选用者消费需求欲望,促进买回转转化。
4.选用者外流预测
计算选用者总数
select count(distinct id) as 选用者总数 from user;计算跳失率:跳失率=只点击一场浏览的选用者数量/总选用者访问量
select count(*) as 只浏览一场就离开的人数 from
(select id from user group by id having count(behavior)=1) as A预测:统计天数为9天,只浏览一场就离开的人数为1,总选用者访问量为9969,跳失率=1/9969=0.01%,占比几乎可以忽略不计,说明淘宝网拥有足够的吸引力让选用者停留在APP中。
选用者犯罪行为数棒状计算
select behavior,count(*) as 犯罪行为次数 from user group by behavior;预测:由于收藏和加入网购车都为浏览和买回期之间确认买回意向的选用者犯罪行为,且不分先后顺序,因此将其算作一个期,可以看到从浏览到有买回只有buy/pv=2.25%的转换率,外流率很高。下面用状态参数预测方法的思路来验证转换率低的其原因。
5.状态参数预测方法
为了进一步找寻转换率低的其原因所在,这儿明确提出两个假设:
假设一:选用者浏览货品时未选用收藏加购功能,导致产生买回意愿时增加了搜寻生产成本,从而使买回意愿下降。
假设二:货品热搜商品与热销商品不匹配造成的转换率低。
5.1验证假设一:未把货品收藏或加入网购车增加买回麻烦,降低买回意愿
建立买回业务流程视图
create view 买回业务流程as
select id,item,category,
sum(case when behavior=pv then 1 else 0 end) as pv,
sum(case when behaviorfav then 1 else 0 end) as fav,
sum(case when behavior=cart then 1 else 0 end) as cart,
sum(case when behavior=buy then 1 else 0 end) as buy
from user
group by id,item,category;–分别依照id,item,category分组相同买回业务流程预测
本数据集选用者犯罪行为类型包括点击pv、收藏fav、加入网购车cart、买回buy。由之前预测可知,选用者买回业务流程可分为:
点击后直接买回:pv-buy
select count(1) as 浏览人数 from 买回业务流程 where pv>0;select count(1) as 浏览后直接买回人数 from 买回业务流程
where pv>0 and fav=0 and cart=0 and buy>0 ;点击、收藏后买回:pv-fav-buy
select count(1) as 浏览后收藏人数 from 买回业务流程 where pv>0 and fav>0;select count(1) as 浏览后收藏再买回人数 from 买回业务流程 where pv>0 and fav>0 and cart=0 and buy>0;点击、加购后买回:pv-cart-buy
select count(1) as 浏览后加购再买回人数 from 买回业务流程 where pv>0 and cart>0 ;select count(1) as 浏览后加购再买回人数 from 买回业务流程 where pv>0 and fav=0 and cart>0 and buy>0;点击、收藏并加购后购买:pv-fav、cart-buy
select count(1) as 浏览收藏加购人数 from 买回业务流程 where pv>0 and cart>0 and fav>0 ;select count(1) as 浏览收藏加购再买回人数 from 买回业务流程 where pv>0 and fav>0 and cart>0 and buy>0;预测:透过上述业务流程转化预测,发现在pv—fav—buy、pv—cart—buy以及pv——fav、cart—buy中的买回转换率明显大于pv—buy中的买回转换率。这是因为未把货品收藏或加入网购车,选用者想要买回时就须要再次搜寻,增加了搜寻生产成本和麻烦,从而使得选用者买回意愿下降。假设一成立。这种情况下可以透过下列方法鼓励选用者选用网购车和收藏功能:
(1)收藏货品再下单可以领取优惠券;
(2)将货品加入网购车可以不定时享受折扣。
5.2验证假设二:热搜-热销货品匹配度低
统计所有货品的买回次数,同时找寻买回次数、浏览次数、收藏次数和加入网购车次数最多的货品。取销售排名前50的为热销货品,取浏览+加购+收藏排名前50的为热搜货品,观察货品id重合情况。
提取排名前50的热销货品
select * from (select item,count(1) as 热销货品,
row_number()over(order by count(1) desc )as 热销排名 from user
where behavior=buy group by item)as A where A.热销排名<51;提取排名前50的热销货品
select * from (SELECT item, COUNT(1) AS 热搜货品 ,
row_number() over(order by COUNT(1) desc) as 热搜排名 FROM user
WHERE behavior=pv or behavior=fav or behavior=cart GROUP BY item) as A where A.热搜排名<51;热销货品与热搜货品匹配度预测
select A.item,A.热销货品,A.热销排名,B.热搜货品,B.热搜排名 from
(select * from (select item,count(1) as 热销货品,row_number()over(order by count(1) desc )as 热销排名 from user where behavior=buy group by item)as A where A.热销排名<51) as A
inner join
(select * from (SELECT item, COUNT(1) AS 热搜货品 ,row_number() over(order by COUNT(1) desc) as 热搜排名 FROM user WHERE behavior=pv or behavior=fav or behavior=cart GROUP BY item) as A where A.热搜排名<51) as B
on A.item=B.item预测:
(1)由此可看出,在销量最高的前50名货品中,热搜货品只有5种,匹配率为10%,说明热销商品和热搜商品的匹配度不高。假设二成立。
(2)匹配度低可能有下列两种情况:a.推荐算法效果不佳,详情页的信息流展示可能不太合理,导致首页推荐的大部分货品可能未精准匹配选用者需求,大多数人只是点击后就离开,并没有买回意愿。特别针对这种情况提议淘宝网APP强化推荐算法,做到精准运营。b.热搜货品优惠力度不够。可能商家为了吸引选用者点击在货品展示页投放的价格具有较强吸引力,但货品详情页的实际价格可能远高于展示价格,从而降低了选用者的买回意愿。这时提议商家将热搜排名靠前而热销排名靠后的货品加大优惠力度,实行团购打折等手段提升买回转换率。
6.货品复购预测
按被买回次数分割货品
SELECT A.`被买回次数`,COUNT(item) as 货品数 from
(SELECT item, COUNT(id) AS 被买回次数 FROM user WHERE behavior=buy GROUP BY item) as A
GROUP BY A.`被买回次数`
order by A.`被买回次数` asc;预测:在此次统计的数据中,复购次数集中在1-4次,呈长尾分布,该期选用者消费需求欲望不大。其中只买回一场的商品有27611种,买回两次的商品有3418种,此次预测的货品中选用者买回的共有32485种货品,19544名选用者中,被买回次数最多的货品仅为35次,没有出现买回选用者数量非常集中的货品,而被买回一场的货品占到27611/32485=85%,说明货品售卖主要依靠长尾货品的累积效应,而非爆款货品的带动。提议多开展网络营销公益活动,比如淘宝网的达成金主的条件限制,鼓励选用者复购。对于选用者消费需求习惯的预测,透过了解选用者消费需求的集中时段集中实施各种网络营销公益活动,提高投入产出比。
7.转换率预测
不用天数孔径下的转换率
每日付费转化率
select date,浏览数,付费数,付费数/浏览数 as 转换率 from user_behavior预测:11.25-12.03的9天内,淘宝网APP的付费转换率再2%-2.6%之间,其中,在11.26-11.27日转换率呈现较大幅度增长,于11.27达到最高值2.53%,11.27-11.28发生小幅度下降,11.28-11.29呈小幅升高,11.29以后呈下降趋势。
每小时付费转换率
select time,浏览数,付费数,付费数/浏览数 as 转换率 from time_behavior;预测:由上图可以看出,一天内夜间3:00转换率最低且浏览量也很低,可能是大部分人处于睡眠状态,上午10:00-11:00转换率最高,其次下午15-17点的转换率也较高,之后呈逐渐下降趋势。虽然APP选用量和浏览量在晚间21:00-23:00达到高峰,但此期的付费转换率并不高,提议商家可以在这个天数段将优惠力度加大,例如发放一些优惠券等,提升选用者的买回欲望,促进买回转化。
相同类别货品的付费转换率
SELECT category,
SUM(CASE WHEN behavior=pv THEN 1 ELSE 0 END)AS 浏览数,
SUM(CASE WHEN behavior=fav THEN 1 ELSE 0 END)AS 收藏数,
SUM(CASE WHEN behavior=cart THEN 1 ELSE 0 END)AS 网购车,
SUM(CASE WHEN behavior=buy THEN 1 ELSE 0 END)AS 付费数
FROM user
GROUP BY category
order by 浏览数 desc预测:由上图可以看出,货品货品类别为2735466和2885642的两类货品的转换率最高,分别为3.27%和3.26%,类别为154040的货品转换率最低,为0.31%,对于货品浏览量高,而转换率非常低的,提议商家对货品买回业务流程选用转化棒状展开预测并展开改善。
五、如前所述RFM理论找寻有用的选用者
M-消费需求金额,由于数据源中没有相关的金额数据,不计入评分。
R-前段时间买回时间
选用者数据的天数范围为9天,前段时间买回天数的区间为0-9,将其分为5档,0-1,1-2,3-4,5-6,7-8分别对应评分1到5。
创建选用者买回天数到12-04日的距离视图
CREATE VIEW pay_B AS
SELECT id, DATEDIFF(2017-12-04,MAX(date)) AS B FROM user WHERE behavior=buy GROUP BY id;创建R得分视图
create view RR as
SELECT id,
(CASE WHEN B BETWEEN 7 AND 8 THEN 1
WHEN B BETWEEN 5 AND 6 THEN 2
WHEN B BETWEEN 3 AND 4 THEN 3
WHEN B BETWEEN 1 AND 2 THEN 4
WHEN B BETWEEN 0 AND 1 THEN 5
ELSE null END) AS R
FROM pay_B ORDER BY R DESCF-消费需求频率
查看选用者买回次数
SELECT id,count(id)as 次数 from user where behavior=buy group by id order by 次数 desc;预测:付费选用者中消费需求次数从低到高为1-72次,将其分为5档,1-15,16-30,31-45,46-60,61-72分别对应评分0到4。
创建选用者买回次数视图
CREATE VIEW pay_F AS SELECT id, COUNT(*) AS A FROM user WHERE behavior=buy GROUP BY id;创建F得分视图
create view FF as
SELECT id, (CASE WHEN A BETWEEN 1 AND 15 THEN 1
WHEN A BETWEEN 16 AND 30 THEN 2
WHEN A BETWEEN 31 AND 45 THEN 3
WHEN A BETWEEN 46 AND 57 THEN 4
WHEN A BETWEEN 58 AND 72 THEN 5 ELSE 0 END) as F
FROM pay_F ORDER BY F DESC;创建RFM得分视图
create view RR_FF as SELECT RR.id,RR.R,FF.F from RR left join FF on RR.id=FF.id计算R、F平均值
select avg(R) as R平均值,avg(F) as F平均值 from RR_FF;按得分与平均分的关系展开选用者分类
select 选用者分类,count(选用者ID) as 人数
from (select 选用者ID,
(case when R >3.5544 and F >1.3249 then “重要商业价值客户”
when R >3.5544 and F <1.3249 then “重要发展客户”
when R <3.5544 and F >1.3249 then “重要保持客户”
when R <3.5544 and F <1.3249 then “重要挽留客户”
else 0 end) as 选用者分类
from RR_FF) as a group by 选用者分类;预测:
(1)重要商业价值客户是指R,F得分都在平均分以上的选用者,此类选用者的买回力和粘性较高,且近期极有可能再次买回;重要发展客户是指R得分较高,而F得分较低的选用者,此类选用者上周买过但粘性不高;重要保持客户是指F得分较高,但R值较低的选用者,此类选用者粘性较好但上周买回犯罪行为较少;重要挽留客户是指R,F得分都在平均分下列,粘性不高且上周很少买回,此类选用者如果不展开挽留将会成为外流选用者。
(2)依照选用者分类结果,选用者最主要集中在重要发展客户和重要挽留客户,应特别针对不用的客户实行相同的运营思路。
六. 结论与提议
责任编辑预测了淘宝网APP选用者犯罪行为数据共200万条,删去991条异常数据后,从五个相同角度明确提出业务难题,选用AARRR数学模型和RFM数学模型预测数据给出如下结论和提议。
1.一天内选用者最活跃的天数段是21-23点,尤其是22点-23点的这一小时。
提议:把握该黄金时段,集中展开网络营销公益活动提高选用者买回转换率,例如平台带货直播、分会场促销、限时抢购等。且更多选择热搜热销的货品类目和货品,迎合选用者需求。
2. 选用者这9日内的留存率均在75%以上,且12月2日-3日的留存率超过98%,说明客户较为稳定,浏览意愿极为强烈。这可能是因为存在新选用者打卡公益活动等,调动了选用者的登录积极性。
提议:多举办老选用者拉活阶梯式奖励、新选用者浏览集积分等公益活动,培养选用者登录习惯,调动浏览热情。发放新选用者满减优惠券、首单直减等公益活动,提高新选用者的买回转换率。
3. 选用者在点击→收藏→买回、点击→加入网购车→买回、点击→收藏和加购→买回这三个业务流程的买回转换率都明显大于点击→买回中的买回转换率。这可能是因为收藏或加购能提供更多买回便捷,提高选用者买回意愿。
提议:增加跨店满减、收藏加购送货品赠品、送福利等公益活动,引导选用者收藏加购犯罪行为,从而提高选用者买回转换率。
4.货品热搜和热销并不匹配,大部分货品可能未精准匹配选用者需求或优惠力度不够,并没有促使选用者展开买回。
提议:
(1)强化推荐算法,优先推荐热搜、热销排名靠前的货品,降低选用者搜寻生产成本。
(2)强化搜索功能,依照选用者画像更精准推荐货品,使热搜和热销更为匹配。
(3)加大热搜货品的优惠力度,提高热搜货品的买回转换率。
(4)特别针对浏览量高而买回转换率低的货品,应改善货品页、详情页以及评论区管理。
5. 选用者最主要集中在重要发展客户和重要挽留客户。
提议:特别针对不用客户实行相同运营思路。
(1)对于占比最小的重要发展客户,消费需求频率低但前段时间一场消费需求天数间隔短,可以透过发放满减优惠券等方法提高消费需求频率;
(2)对于占比第二大的重要挽留客户,消费需求频率低且前段时间一场消费需求间隔长,面临选用者外流风险,可以透过电话邮件等形式主动联系客户,调查难题所在,并有特别针对地展开挽回;
(3)对于占比较大的重要商业价值客户,应提供更多专属的VIP服务,透过服务质量进一步调高其粘性;
(4)对于占比较低的重要保持客户,消费需求频次高但前段时间一场消费需求天数间隔长,可以透过短信邮件等方式提醒上新、邀请参加老选用者反馈公益活动等提高复购率。
转自 :https://zhuanlan.zhihu.com/p/183899535
推荐阅读:
不是你须要中台,而是一名合格的架构师(附各大厂中台建设PPT)
企业IT技术架构规划方案
华为如何实施数字化转型(附PPT)