普及一下什么是大数据技术?

2022-12-10 0 1,070

在现今那个黄金时代,现代人对「大统计数据」那个词并不孤单。大统计数据控制技术指的是超过现代统计关系数据库处置能力的统计数据。随著网络上的各种大统计数据的产生,统计数据挖掘就显得至关重要。

今天,他们来谈谈大统计数据。

提出诉讼统计数据,他们可能会觉得比较无趣,看到一堆统计数据头都大了。

但统计数据只不过没那么难认知,由此还能得出结论许多有意思的小推论。比如说,马化腾就曾撷取过这么两个推论:在中国,江苏男性的胸最轻。那个推论是怎么得出结论的呢?就是透过腾讯的大统计数据,辨认出淘宝网销售的文胸中,卖到江苏去的文胸平均体积最轻。有许多用其他方法无法获得的重要信息,透过分析统计数据,就显得一清二楚。

总之,大统计数据对于他们的象征意义,可更为重要是获得一些重要信息罢了,或者说认知了大统计数据,还能改变他们的观念形式。

不知道他们小的时候听没母汤氏这样一首歌童谣,童谣里说:「因为因此,自然科学规矩」。这只不过是在说,他们有意识的观念形式是 「因为甚么,因此甚么」,是用指数函数的形式观念,而这种观念,正是大统计数据观念所不一样的,大统计数据并非高度关注二者间,而是高度关注关联性,换句话说人与人间、人与表达形式、表达形式与表达形式间的相关联。

我举两个范例哈:

二十年前的两个冬天,生物学家们在研究划船溺亡交通事故时,辨认出了两个有意思的现象:数据说明呢,随著冰激凌销售量的增长,溺死的数目直角上升,二者的变化几乎完全相同。这是为甚么呢?他们能思索呵呵。

何况是吃冰激凌会导致现代人溺死?

——总之并非了,吃冰激凌并并非溺亡的其原因。或者说的其原因是甚么呢?是天气炎热了,吃冰激凌的人多了,划船的人也多了,溺死的人自然就多了。

在冰激凌销售量和溺亡数目间没二者间,只有关联性。

透过这两个故事啊,他们是并非对数字开始有点感冒了呢?下面啊,我就和他们撷取呵呵,用大统计数据观念能教给他们的四个要点:

第一点:现代的因果观念是有问题的。

现代的观念,常常习惯在相关的两件事间建立二者间,他们总是喜欢想:因为甚么,因此甚么。

但那个世界很复杂,而且显得越来越复杂,干扰的因素许多,许多时候他们并不能准确地找到其原因。而如果强行找其原因,往往会适得其反。

就像他们刚刚举的那个范例,如果按照二者间的观念,莽撞地限制冰激凌的销售,那么非但不会降低溺亡数目,由于减少了现代人避暑的形式,溺死的人反而会变多。

初衷是好的,但盲目建立二者间是很危险的。

第二点:注重关联性,才是更有效率的观念形式。

沃尔玛是全世界最大的连锁超市,它的统计数据挖掘师辨认出,当把啤酒和婴儿纸尿裤摆放在一起时,会大幅提高二者的销售量。

为甚么会这样呢?原因在于带孩子的爸爸变多了吗?还原因在于现代人在买啤酒的时候有点愧疚,希望展现呵呵自己有责任心的一面?没人知道。

但是啊这一点也不重要了。沃尔玛辨认出了这一相关后,迅速调整货架布局,把这两种货物摆在一起,既提高了销售量,又便利了顾客。

许多顾客赞叹:「沃尔玛居然知道我心里在想甚么」——只不过沃尔玛不知道。但这没关系了。

从始至终,沃尔玛也没去研究这一现象的其原因。但这丝毫也没妨碍沃尔玛做出正确的决策,而且反应更快了。

注重关联性而非因果,并不会使你损失甚么。

第三点:相关需要全样本

首先,我解释呵呵样本是甚么。样本是他们做观察和调研的时候抽取的一部分统计数据,它对于做决策具有很重要的作用。在大统计数据当中,正是样本规模的改变,导致了决策观念的改变。

关联性,是大统计数据最核心的特征。

但是你有没考虑过,既然关联性这么好,为甚么现代人还是长期保留着指数函数的现代观念呢?

按照进化的逻辑,像指数函数这么低效的观念形式,怎么还没被淘汰掉呢?

这就是大统计数据的关键。

因为关联性不追究表达形式间的逻辑关系,因此要想获得可靠的推论,所需的统计数据量要比指数函数更大,样本要更全面。

在以前,控制技术的局限让他们不可能获得足够的数据来支持他们的判断。因此他们不得不采取一种取巧的形式,去探究和论证因果。

但现在,随著网络和计算机控制技术的发展,大统计数据和全样本显得可能了,他们没理由不去利用这种便利。

人与猴子的区别在于他们会使用工具,而新观念的人和旧观念的人区别在于:他们会使用更新、更高级的工具。

这就引出了大统计数据的第二个特征:全样本。

相关文章

发表评论
暂无评论
官方客服团队

为您解决烦忧 - 24小时在线 专业服务