如果是在可回收情景，都有「坑」的踪迹。责任编辑从「琼斯反例」著手，着重于其在销售业务中的前述整体表现情景，预测销售业务甚么样可能踩坑的地方，一起来看呵呵吧。

数据分析丨安卓和IOS的用户留存率都有提升，大盘留存率一定提升吗？唐僧念的紧箍咒究竟是什么，翻译成中文只有六个字，换你也头疼

今天撷取两个预测师的老友——「琼斯反例」，如果是在可回收情景，都有「坑」的踪迹，所以也成为了数据挖掘复试中的座上客。责任编辑主要就着重于其在销售业务中的前述整体表现情景，需要预测老师引起提防，其之「坑」，白松县忽视改良机会，而有推论直接严重错误。

一、甚么是琼斯反例

难道叫「反例」，具体来说的确是反基本常识的。却是以两个单纯的事例来导入吧：

（事例波洛吉，concerned，普伊隆）假定两个产品，不论Android端却是IOS端使用者留存率都较上年有提高，与否上证指数的留存率很大有提高？

经验丰富十多年应试教育磨练的他们，看到「很大」两个字就会觉得Dharmapuri深意。

是的，你没人错，即使他们合取范式了各层次，且各层次态势完全一致，也不见得能充分反映上证指数的优点。

让他们把数据展开再看呵呵前述的数量级：

呢很能充分反映问题了？

虽然双端留存率都有提高，但是总体的留存率再次出现了急剧上升。其主要就原因是iOS使用者再次出现大量外流，只剩核心理念使用者；Android端次月留存率较高，但使用者数量级非常大，推高了整体留存率。

这就是出名的琼斯反例，用学术研究一点的词汇说明：

「计算分项的比例（比如各种各样的率）数据时，A方的每一分项的数据都比B方要高，但是把各分项一汇总起来算总体数据时，A方却比B方低。这种不符合常规认知的“反例”现象，在数据挖掘领域并不少见；这种在进行分组研究的时候，有时在每个组比较时都占优势的一方，在总评时反而是失势的一方的“反例”现象就叫琼斯反例。」

接下来，他们来看看在销售业务甚么样可能踩坑的地方。

情景一：只注重比例指标，不注重绝对值变化

在工作情景中，这样的表述呢似曾相识：

「他们的活跃使用者付费率从3%提高到了5%，说明付费流程改版效果非常好，对使用者的付费率有了较急剧度的提高。」「近期他们APP的内容播放率有所提高，亲子类播放率提高30%，历史类播放率提高10%，所以APP内容播放率的提高是亲子类内容带来的。」

乍看好像没啥问题，但是其实经不起推敲。

面对情景一，也许他们按重度使用者、轻度使用者去回收，会发现两边的付费率其实都没有明显改变，这个付费率的提高是由于近期重度使用者在日活中的占比增加了。那把付费率的提高归功于付费流程的改版好像多少有点不对劲。

后续的预测过程中，他们的重点就需要调整为「为甚么重度使用者在日活的占比增加了」。可能是因为轻度使用者转化为了重度使用者，好事情，不用太担心。也可能是轻度使用者逐渐外流了，只留下一些重度使用者，那他们又得进一步预测「为甚么轻度使用者逐渐外流」。

数据预测，就是类似这样抽丝剥茧的过程。

对于情景二，也与情景一大同小异，忽视数量级直接聊比例都是耍流氓。假定本来亲子内容有10个播放，现在13个，历史类本来有1000个播放，现在有1100个。你还能自信的说内容播放率提高是由亲子内容播放提高带来的吗？

与之类似，当两个渠道今天的新增注册使用者只有100人时，明天有1000个新增都是10倍增长。两个新增注册有10,000人的渠道，哪怕只涨10%，就能带来同等的增量。

情景二：回收做得不够，关键层次有缺失

就会忽视了「被平均」的一部分人，或者忽视其他关键层次对数据的影响。数据挖掘的艺术有时候也就是从各层次回收的艺术，忽视关键层次，白松县错失改良的机会，而有再次出现推论性严重错误。

比如，投放时他们发现某个投放素材的ROI较高，就决定直接把它停了。但是真实世界往往是十分复杂的，也许这个素材在中国不行，在美国又行了，在美国不行，在南美又行了。在高收入人群不行，可能在低收入人群又很能打。

这里引用头条的一道复试题来进一步说明吧：

对潜在客户进行投放时，30岁以上客户1000人，转化率2%，30岁以下3000人，转化率4%，总体转化率就是3.5%，所以预测师得出推论：30岁以上的客户价值低，不建议再投放。请问这个推论合理吗？

他们有几种角度来驳斥这个推论。

第一，没有呈现其他重要层次，可能是样本选择不均衡。具体来说，30岁以下选了3,000人，30岁以上则选了1,000人，30岁以下使用者和30岁以上的使用者的人口学特征与否完全一致呢？

假定咱们30岁以上人群选的低收入人群占比高，30岁以下选的是高收入人群占比高，对推论必然产生影响。所以除了30岁以下/30岁以上这个拆分，他们可能还要按人群收入进行拆分。

假定30岁以下人群买的大多是9.9的走量产品，30岁以上买的都是999的利润产品，你还能说30岁以上的使用者没有价值吗？

情景三：AB实验时测试效果很好，前述上线后翻车

而琼斯反例也可以为一些销售业务现象提供一些合理说明。「AB实验测试效果好，上线效果一般」的原因有很多，比如「新奇效应」或者「统计显著不等于销售业务显著」，但是「琼斯反例」也是导致翻车的种子选手之一。

举个例子，虽然他们在进行AB实验时会对使用者进行随机分流，我也认可这种分流足够准确，但是测试往往是跟随版本迭代进行的，可能这类率先进入ab实验，勤于更新的使用者本身就是这种对app更为热衷，活跃度更高的使用者。最后他们依照实验结果发布版本，可能对于某些活跃度没这么高的使用者，反而有负面影响。

甚至极端一点，实验版的新使用者流程可能有bug，但是因为新使用者在上证指数占比较高，如果他们只看上证指数数据，可能不会注意到实验已经对新使用者体验产生恶劣影响。

出的关键指标。比如我已经知道某个层次下各群体的使用者（比如新使用者和老使用者）的指标整体表现有所不同了，也很难在实验层面就保证各组使用者在该层次下的使用者占比是完全均匀的，除了总指标，就需要对该指标进行进一步回收预测。比如看付费率不光看总体付费率，也看新使用者付费率和老使用者付费率。

另外做足够精细的数据挖掘，也可以让他们更好的把实验价值最大化。比如某实验显示虽然总体付费率提高只有0.1%，没有显著性。但是对于某特定人群来说提高明显，可以让30岁以上的女性付费率提高30%，那么这个实验仍然有上线的价值。

Reference：

关于琼斯反例的深度解析，奇奇和蒂蒂

数据挖掘——工作中遇到的“琼斯反例”，森谷蘑

从大厂数据预测复试题了解「琼斯反例」，趣谈数据挖掘

浅谈AB测试里常见的琼斯反例，王晔

责任编辑由 @Ver 原创发布于人人都是产品经理，未经许可，禁止转载

题图来自 Unsplash，基于 CC0 协议

该文观点仅代表作者本人，人人都是产品经理平台仅提供信息存储空间服务。

一、甚么是琼斯反例

情景一：只注重比例指标，不注重绝对值变化

情景二：回收做得不够，关键层次有缺失

情景三：AB实验时测试效果很好，前述上线后翻车

相关文章

微信