你是如何被“大数据”洗脑的?

2022-12-10 0 216

你是如何被“大数据”洗脑的?

责任编辑风险提示:国际品牌紫菊

id :Brand—Circle

节录已经开始以后,请我们先看两个事例:

你是如何被“大数据”洗脑的?

(PS,所致秘密性须要,这儿如若放两张P过的图来起身)

那时答:别的年纪层的专业人才是该商品的众所周知使用者?

对那个难题,我总共听见过四种国际标准答案。

第三种指出是30—39岁。假如你问他为何,很或许,即使那部份圆柱最低…

第四种指出是25—29岁。即使尽管它度而已第三,但它的年纪跨距多于5岁,实际上是30—39岁跨距的三分之一。

第四种则指出18—29岁都是,规矩跟第三条类似于,无须多说明。

所以,到底何种国际标准答案才更为恰当呢?

我估算绝大部份人单厢选第四种或是第四种吧?最已经开始我也是这种阐释的,指出该产品的众所周知使用者是“青年人”。(若依照统计局的国际标准,也是15—34岁的人)

不过说实话,那个结论还真挺让我惊讶。即使若根据我的常识来判断的话,它的众所周知使用者应该是年纪稍大点的中年专业人才对。

该商品属于健康食品,主打“排毒”“减肥”“降三高”“治便秘”“抗酸”的功效(你先别笑它卖点太多不够聚焦,又不是走电视广告的路子),而这些功能属性,除“减肥”以外,我相信不少人单厢跟我一样——若用常识来判断,它们应该更偏向中年人。

然而,数据结果却与常识判断相互矛盾…这时候,你到底该相信数据还是相信常识呢?

这是我最近在两个项目中遇到的两个难题,那个难题也的确让我纠结了一段时间。即使一方面有人说“数据是不会撒谎的”,而另一方面又有人说“做调研,常识才更为重要”

不过,当我想起以前看到过的一段故事之后,难题就变得相对明朗了。

1.二战的故事

在二战期间,盟军的战斗机在战斗中损失惨重,于是盟军总部秘密召集了一批物理学家、数学家来专门研究“怎样减少空军被击落的概率”。

当时军方统计了所有返航飞机的中弹位置,发现机翼部份中弹比较密集,而机身和机尾的中弹比较稀疏,因此当时普遍的建议便是:应加强机翼部份的防护。

然而,统计学家沃德却提出了两个完全相反的观点,他指出应加强机身和机尾部份。

沃德教授说:“所有的样本都是成功返航的飞机,也是可能正是即使机翼遭到攻击,机身和机尾没有遭到密集的攻击,所以才使得这些飞机能够成功返航。”

后来又经过一系列有力的论证后,军方果真采用了他的建议。事后也证明这的确是无比恰当的决策,有效降低了空军被击落的概率。

你是如何被“大数据”洗脑的?

那个故事讲的是所谓的「幸存者偏差」(Survivorship bias)幸存者偏差是指:当取得资讯的渠道仅来自于幸存者时,此资讯可能会存在与实际情况不同的偏差。(即使死人不会说话)

那它跟以后使用者画像的例子有什么关系呢?

关系很大。

尽管数据是不会撒谎的,但它只能展示出有数据(幸存者)的那部份信息,而无法展示没有数据(阵亡者)的那部份信息,它是片面的。

翻译到以后那个事例:假如仅凭扫过码的使用者数据来判断商品的使用者特征,其实是忽略了那些使用了商品但没有扫码的使用者的数据。毕竟,不是所有用了商品的人都一定会扫码。

而这儿有很多可能的因素会影响结果,比如:

1)不同年纪层的人拥有不同的扫码习惯——可能青年人更愿意扫码,而中、老年人绝大部份都没有扫码习惯。

2)扫码的人不一定是商品的使用者——也许是年轻人买了该商品送给长辈,然后自己去扫了码。

3)说服人们扫码的文案也会有影响——假如你说“扫码享优惠”,那最终扫码的可能就更偏向于那些“精打细算”的使用者,而不是所有使用者。

总之,永远不可能得到完整的数据样本。

因此,回到文章最已经开始的难题——别的年纪层的专业人才是该商品的众所周知使用者?

准确的国际标准答案应该是:无法仅通过该数据就得出结论。

是的,到目前为止,我依然更偏向于相信常识——指出中年专业人才是它的众所周知使用者。(估摸着至少也是30岁以上)

2.洞穴之喻

柏拉图曾在《理想国》的第七篇中,讲了两个著名的比喻——洞穴之喻(Allegory of the Cave)

设想有个很深的洞穴,洞里有一些囚徒,他们生来就被锁链束缚在洞穴之中,他们背向洞口,头不能转动,眼睛只能看着洞壁。

在他们后面砌有一道矮墙,墙和洞口之间燃烧着一堆火,一些人举着各种器物沿着墙往来走动,如同木偶戏的屏风。当人们扛着各种器具走过墙后的小道,火光便把那些器物的影像投射到面前的洞壁上。

由于这些影像是洞中囚徒们唯一能见的事物,他们便以为这些影像是那个世界真实的事物。

你是如何被“大数据”洗脑的?

在现实生活中,数据就像该比喻中印在壁洞上的影像——它试图利用低维的事物,去给人们描绘两个高维的东西。假如将洞壁的影像进行数据化处理,哪怕技术再先进,收集的数据再多,都难以让洞穴人感知到两个真实的世界,即使他们看到的世界都被“降维处理”了。

而另一方面,常识又是什么?

不可否认的是:常识跟数据一样,都是片面的。并且每个人的常识都不尽相同,质量参差不齐。

不过这儿想说的重点是:相比于数据,常识能从更多得多的角度去分析两个事物。

即使人类的大脑很奇妙,它能把很多看似无关的事物联系在一起。而这一点,是任何计算机都很难以数据的形式做到的。

举个最简单的例子:人们可通过观察“一根筷子折得断,十根筷子折不断”的现象,悟出两个与之毫不相关的规矩——团结是力量。而同两个现象假如交给计算机去处理,那最后的结果就肯定只能与“材料”“扭矩”和“力度”等相关…

你是如何被“大数据”洗脑的?

再比如迈克·亚当斯曾做过的一项研究,他发现:美国大学生期中考试临近时,奶奶去世的可能性是平时的10倍,而期末考试时是平时的19倍。(数据来自各高校收到的请假邮件和推迟交论文的申请)

若单看数据,你也许会指出学生的学术压力会对奶奶的健康造成影响(的确有科学家对此做过研究);但若用常识去思考,那就很简单了——为躲避考试,学生们编造了“奶奶去世”的请假借口。

你是如何被“大数据”洗脑的?

这是常识与数据的区别——常识是多维的,数据是单维的。

3.数据不骗人,但它会坑人

数据真正的价值并不在于其统计或计算结果,而在于人们能对其做出恰当的阐释。

不过这很困难,尤其当你面对的是残缺的数据。

就像我以前举过的两个例子:

据《2017社会大学英雄榜》显示,国内登上胡润百富榜的2000多位资产超二十亿的富豪中,有三分之一的人都是低学历。(PS,低学历是指本科以下的学历)

答:从这条新闻中你能读出什么结论?

我想肯定有很多人会指出:学历的高低跟收入的确没什么关系。然而,这种阐释是错的。恰当的阐释方式是什么呢?

应该是:中国在2016年末大约有13.8亿人口,其中本科及以上的多于3800万,本科以下则有13.42亿——低学历的人本来就比高学历的人多得多(35倍),而它们进入榜单的人数基本相同。因此,拥有高学历的人进入百富榜的概率,是低学历的35倍。

在那个例子中,所有的数据都是真实的。但假如你只看到一部份数据,而没有看到其他数据,那就很容易被数据给坑了,得出错误的结论。

当然,要想得出更为准确的结论,这儿还需挖掘更多的数据。比如:富豪们的年纪分布。毕竟不同年纪层人群的学历分布是不一样的;所属行业的分布。毕竟不同行业对学历的要求与相关程度是不一样的;在这些富豪中,高学历的收入与低学历的收入的总体对比情况…

嗯,假如你不是专门学统计的,相信在加入这么多因素之后,一定会崩溃掉…不过你也不用慌,即使绝大部份情况下,你根本就没有机会能知道这么详尽的数据。

包括以数据著称的新零售。为何绝大部份新零售项目仍然在亏钱?其实是即使它们的规模还没有达到一定的量,数据的维度依然比较单一,“算”出来的东西依然不够精准,所以效率的提升也就很有限了。

4.小结一下

文章读到这儿,你也许会在心里嘀咕:你写这篇文章,是不是想告诉我们数据是没有用的呢?假如数据的结果都不够准确,那什么才是准确的呢?

首先,这儿并不是说数据没有用,即使它是片面的。

所谓的要客观看难题,并不是指你一定要掌握了所有数据之后才能下定论,而是要在下定论以后,尽量多方面了解一些数据和信息,无论它们本身多片面。

多了解一点,犯错的几率就会小一点,多看到一面,你离客观的真相就更接近一点,这是进步。

千万不要试图一下子解决所有的难题,或是以为一下子就得到准确的国际标准答案,即使这本身是一种错误的价值观,或是说痴人说梦。(所以你也不用纠结“什么才是准确的”了,根本就不存在)

知道自己还有不知道的,并在难题中不断前进,这才是真正科学发展的思想。

相反的,假如仅凭单方面数据就武断得出结论,并且笃定得不行,那无论数据样本有多大,你的结论和真实情况都很可能是天差地别的。

酷玩实验室经授权转载

如需转载,请联系原作者

分享给朋友或朋友圈请随意

你是如何被“大数据”洗脑的?

相关文章

发表评论
暂无评论
官方客服团队

为您解决烦忧 - 24小时在线 专业服务