1、结语
从当代文明文明诞生的那一刹那,统计数据就伴随他们而生——当代文明连宝香所用的文本和语言,计算方法距离或数量使用的标记和图案,观察自然所积累和发扬的经验等,都是统计数据构成的。这些统计数据在千万年历史进程里,为当代文明文明的产业发展进化增添了难以诚然的非常大价值。
自从当代文明发明者了纸和笔,创造了位数、文本、几何控制技术后,统计数据有了更精确的描述和历史记录的方式,在此基础上催生了位数、物理、化学,以及文学、艺术、管理工作等学科,他们今天所享受的当代文明,都深深的根植于统计数据控制技术。
随着互联网黄金时代的大产业发展,统计数据历史记录逐步脱离了书本的限制,当代文明发明者了低成本的Loupe积体电路所蕴含的秘密,大批的统计数据可以按0或1的十进制形式储存积体电路材料内,它们的储存能力如此非常大,成本这般高昂,以致于以往被轻易忽略的统计数据都能被死忠的保存下来:他们每呵呵轻度的呼吸、每一次心脏的颤动、每呵呵滑鼠的点选,民营企业里员工的每一次值勤、财务的每一笔帐单、客户的每一个评论,应有尽有都能一一历史记录。
与此同时,统计数据的基本概念也在进一步扩宽。传统的统计数据是指以位数或文本说明的内容,通称为形式化统计数据,而大统计数据黄金时代涌现了大批新型统计数据的、非形式化的统计数据。例如人群之间看不见的SNS关系(Social Relationships),终端电子设备发射的GPS位置,网络传播的影像、高亮,可佩戴电子设备收集的健康统计数据等。对这些各式各样的统计数据的收集、挖掘、运用,也是当代大统计数据分析的关键交叉学科。
已经开始发生的大统计数据变革,恐怕是当代文明控制技术产业发展中最关键的话题之一,它冲击着许多主要的行业,包括零售、服务业、电商和金融领域等,同时大统计数据控制技术也已经开始彻底的改变他们的现实生活。如果把统计数据想像成是矿物的话,大统计数据分析控制技术就是要从矿物中提炼黄金,并形成各种精巧的半成品有所作为的过程。
它既能够通过终端应用领域和云服务跟踪和提升对个人的生活水准,也能为当代民营企业增添更高效率和稳健的管理工作形式。小到对个人,大到民营企业和国家,大统计数据均是极其关键的一个议程,需要他们真正的深入理解它,因此本文将对大统计数据分析控制技术得出全貌的介绍,首先得出大统计数据的背景、原理和基本概念,然后阐述大统计数据分析的方式和关键步骤,再传授大统计数据在民营开发工具中的形式和收益,最后分享大统计数据时代的产业状况,和他们面临的挑战与机遇。
2、背景、基本概念和意义2.1 大统计数据的产生背景
大统计数据热潮诞生的先决条件是计算机储存能力的迅速扩大和成本的一再降低。得益于积体电路控制技术在过去20年里持续快速的产业发展,今天他们用500元人民币就能轻松买到一块能装得下63万本《红楼梦》的1T 容量的终端硬盘;价值2000元的一块PC硬盘甚至能储存下全世界迄今为止所有的音乐内容。在很多大型互联网公司里,拿一台较好配置的服务器,就可以一举装下美国国家图书馆里所有纸质书的内容——纵观整个当代文明文明产业发展史,今天当代文明拥有了史无前例的海量信息的储存能力,并且这个能力仍然在日新月异的向前产业发展着。
与此同时,当代文明创造统计数据的能力也同样在高速增长。传统社会只有文人墨客、达官显贵才能青史上留下只言片语,而互联网黄金时代里所有人都能轻松成为统计数据的生产者,例如Facebook上每月被用户分享500亿条新信息,全球的SNS网络每天产生1亿张新照片。能够产生和收集统计数据的形式也越来越多——电脑、手机、电视、汽车……一切都在大踏步的向“智能化”迈进。
他们对统计数据进行挖掘和处理的能力也遵照着“摩尔定律”在飞速的产业发展。这些IT控制技术在统计数据产生、储存、挖掘、运用方面的逐步成熟,让统计数据驱动产生价值的门槛越来越低,终于大统计数据黄金时代的脚步匆匆到来了。
2.2 大统计数据的“4V”要素
大统计数据(Big Data)基本概念最早的提出者是麦肯森咨询公司和IBM公司的科学家们。在大统计数据的定义中,有如下“4V”要素是必须的:Volume, Variety, Velocity, Value,具体含义如下:
图1:大统计数据的4V要素
Volume:具备超出典型统计数据库软件收集、储存、管理工作和分析能力的统计数据集;
Variety:具备多样性的,形式化、半形式化、非形式化等多种类型的统计数据形式;
Velocity:具备快速、实时的统计数据处理能力;
Value:具备从稀疏的统计数据中挖掘高价值内容的意义。
4V要素之间存在密切的关联关系:Volume是所有工作的基础,构建一个容量足够非常大的统计数据处理平台才能保证其上的应用领域;基于Volume进一步有Variety,用于多样化统计数据的处理;Velocity保证了系统有实时数据处理的能力;最终的Value体现了统计数据所能发挥的价值,大统计数据最关键的并非“大”,也并非“统计数据”本身,而是人们如何认识和使用它,尽最大可能挖掘出其中价值,正所谓吹尽黄沙始见金。
2.3 大统计数据价值和民营企业信息化
统计数据价值的最直观应用领域就是在民营企业管理工作里,这个过程和民营企业信息化的产业发展往往交织在一起。在1980s年代及以前,民营企业的各类业务、财务统计数据都是通过账簿历史记录,这种形式查阅和统计的效率都很低,可靠性也不高。
从1990s年代末开始,金融业、电信业、大型零售等行业民营企业率先将核心交易统计数据电子化,2000年以后随着IT控制技术的进步,越来越多的民营企业将信息化纳入议程,ERP(Enterprise Resource Planning)、MIS(Management Information System)系统蓬勃产业发展,设计、制造、进存销等业务管理工作逐步统计数据化,这些统计数据被大家意识到是民营企业最宝贵的资产,随之而起的统计报表控制技术也渐渐完善。
2010年以后,更多种类的统计数据,包括客户的浏览统计数据、反馈统计数据等在一些民营企业中也都开始历史记录并逐步进行个性化建模和分析,统计数据驱动的CRM(Customer Relationship Management)客户关系管理工作开始在精准运营和个性化服务方面崭露头角,基于统计数据分析的预测控制技术也逐步开始出现。(达观统计数据陈运文)
图2:统计数据价值的最直观应用领域就是在民营企业管理工作里
从过去到未来,统计数据的价值在一点一滴的凸显,注意这个过程是动态变化的,十年以前的大统计数据在如今看来根本不算很大;而同样的,今天的大统计数据在若干年后也将不再被认为是大统计数据。
统计数据容量、速度、多样性、复杂度方面在今天来看无法想象的事情,几年之后都将完全被颠覆;唯一不变的,是对统计数据的思考和分析的方式,和利用统计数据来产生附加价值的出发点。
3、方式、流程和场景3.1 大统计数据收集的特点
大统计数据应用领域的第一步就是收集统计数据。巧妇难为无米之炊,统计数据收集的完整性、准确性,决定了统计数据应用领域是否能真实可靠的有所作为。大统计数据黄金时代的统计数据收集有如下三个特点:
1) 统计数据收集以自动化手段为主,要尽量摆脱人工录入的形式;
2) 收集内容以全量收集为主,要摆脱对统计数据进行采样的形式;
3) 收集方式多样化、内容丰富化,摆脱以往只收集基本统计数据的形式。
从收集统计数据的类型上看,不仅要涵盖基础的形式化交易统计数据,还将逐步包括半形式化的用户行为统计数据,网状的SNS关系统计数据,文本或音频类型的用户意见和反馈统计数据,设
3.2 常见统计数据收集控制技术
传统的统计数据收集方式包括人工录入、调查问卷、电话随访等形式,大统计数据黄金时代到来后,一个突出的变化是统计数据收集的方式有了质的飞跃,下面所介绍的统计数据收集形式的突破直接改变着大统计数据应用领域的场景。
终端互联网的兴起让面向终端电子设备的统计数据收集控制技术有了迅速产业发展,目前使用最多的常称为Android或iOS的收集SDK(Software Develop Kit),这种控制技术能帮助统计APP的基础统计数据,包括用户数、活跃情况、流失比例、使用时长等;用户的位置、安装列表、通讯情况等通过授权也可以收集。网络爬虫是另一类广泛使用的互联网收集控制技术,常被用于进行大规模全网信息收集、舆情监控、竞品分析等领域。
图3:终端互联网和可佩戴传感器等新型统计数据收集控制技术蓬勃产业发展
物联网也和大统计数据息息相关,因为物联网的关键控制技术之一是无线射频标签(RFID):当安装有RFID微型标签的读卡器在近距离发出信号时,带有RFID的物品能自动返回其唯一的序列号,这样就能实现自动大批量辨识物品信息的工作。RFID控制技术解决了物品信息与互联网实现自动连接的问题,结合后续的大统计数据分析工作,能发挥其强大的威力。
在工业制造业里,传感器(Sensor)是另一类常见的大统计数据收集装置,它能将测量到的信息按一定规律变换为电信号输出,通常用于自动检测和控制等环节。传感器的种类极为丰富:大到机械电子设备、汽车、飞机、建筑物,小到一部智能手机、一个智能电子设备,都可以安装很多种传感器,传递温度、压力、位置、位移、光敏、距离、化学感应、生物、磁场等各类信号。未来携带传感器+大统计数据平台的智能电子设备将越来越多,基于传感器统计数据的大统计数据应用领域才刚刚起步,如智能医疗,智慧城市等,这方面有着广阔的前景。
3.3 统计数据储存控制技术的产业发展和演进
传统民营企业信息化系统采用关系统计数据库来进行统计数据储存,其中规模较大的通常被称为“统计数据集市”(Data Mart)。随着收集统计数据的种类越来越多,部分行业领先的公司看到了把不同统计数据集市集中到一个大系统中的价值,这个大系统称为民营企业级统计数据仓库(Enterprise Data Warehouse, EDW),由专门的统计数据团队(或称为统计数据中心)负责集中式的统计数据管理工作和维护。
图4:民营企业统计数据中心是各类统计数据业务的集中管理工作者
随着统计数据量的惊人增长,已经使用了20余年的传统统计数据库再也无法支撑起新的储存需求了,所以被Google称为Big Table和GFS的新型储存控制技术在过去的几年里被发明者出来,并在行业中广泛应用领域,这些控制技术通过自动调配上万台服务器协同工作,能完成高性能和高可靠的统计数据储存任务,为大统计数据的运用铺平了道路。
3.4 云计算与大统计数据
云计算可谓是大统计数据的最好载体。由于大统计数据储存和运算非常复杂,传统民营企业在运作时需要投入很高的人力物力,因此把涉及储存运算的基础设施抽象和独立出来,形成的专门性服务称为云计算(Cloud Computing
云计算服务分为两大类:公有云和私有云。公有云是在开放网络中为客户提供服务,用户并不完全拥有云资源。私有云是为特定客户单独使用而构建的,独占使用的服务资源。使用公有云,相当于通过一根电线接入供电网;使用私有云,相当于在家里安装了一台发电机。
云计算的出现大大降低了大统计数据应用领域的门槛,未来无论是民营企业还是对个人应用领域,采用云计算作为载体,大统计数据作为上层应用领域的形式将是最优的产业发展方向。
3.5 大统计数据分析原理和控制技术生态
在解决了大统计数据收集、储存的问题后,最关键的环节是大统计数据分析控制技术。著名的Map-Reduce的计算框架很好的解决了大统计数据分析的性能问题,被产业界广泛使用,基于Map-Reduce原理最为知名的开源实现方案称为Hadoop。
在Map-Reduce基础上,近1-2年来一些新的流式计算控制技术也被国际知名公司和大学提出,例如twitter提出的Storm,Yahoo的S4,UC Berkeley的Spark,斯坦福大学的Phoenix等新控制技术。围绕这些核心的挖掘平台,现在已经形成了一整套大统计数据分析控制技术生态,为上层的统计数据应用领域奠定了基础。
图5:大统计数据运算平台常见的控制技术生态系统
3.6 统计数据类型与常见应用领域
大统计数据分析应用领域中最常见的统计数据类型称为形式化统计数据,定义为储存在统计数据库里,能用二维表结构来逻辑表达实现的统计数据。形式化统计数据常用于历史记录生产、业务、交易、客户信息等方面的统计数据,这些统计数据规模较小,内容规范,含义明确,处理形式成熟,可以方便的产生各类统计数据报表,为民营企业运作提供最直接的依据。
以典型的制造型民营企业运作为例,其资产负债表、现金流表等核心财务报表,均出自于形式化统计数据的统计分析;其业务相关的库存、销量、分品类货物流转等统计数据,也通过类似的形式来产生。
APP的日活跃用户数(DAU,Daily Active Users于半形式化统计数据,网络访问日志就是典型的一种半形式化统计数据。半形式化统计数据具有可被理解的逻辑流程和格式,但这些格式并不是用户友好的,有价值的信息参杂在大批的噪声和无用的统计数据中,分析起来比形式化统计数据复杂。(达观统计数据陈运文)
图6:大统计数据处理的三类统计数据交叉融合
比半形式化统计数据更复杂的是非形式化统计数据。文本信息是目前已历史记录的数量最为庞大的统计数据形式,例如网页中的文本内容、聊天历史记录、电子邮件,民营企业的各类文档等,它们包含了大批有价值的信息,对它们的分析处理催生了自然语言处理(NLP , Natural Language Processing)这样专门的计算机学科。
大统计数据处理难度最高的是多媒体类的非形式化统计数据,包括图像、语音、视频等,对这些统计数据的深入挖掘和理解,能产生非常多新颖实用的功能,如自动监控、人脸识别、自动驾驶等。近年来Google、Facebook等公司积极进行深度学习(Deep Learning)相关控制技术的研发,用大规模机器学习的控制技术来解读多媒体的统计数据,已经取得了非常可观的进步。(陈运文博士)
图7:多媒体类的非形式化统计数据的处理能产生非常多新颖的功能
对各种类似统计数据的挖掘和处理还远没有结束,存在非常大的应用领域潜力。相信大统计数据系统在不久的将来能产生越来越多令人惊叹的功能,甚至改变大批产业的形态。
作者达观统计数据创始人 陈运文
现任达观统计数据科技CEO,上海市计算机学会多媒体分会副会长。中国知名大统计数据控制技术专家,国际计算机学会(ACM)和国际电子电器工程师学会(IEEE)高级会员,中国计算机学会(CCF)会员,复旦大学计算机博士和杰出毕业生,曾担任盛大文学首席统计数据官,腾讯文学高级总监、统计数据中心负责人,百度核心技术研发工程师等职务;QCon大统计数据分论坛主席和最佳控制技术讲师。
在统计数据分析和计算机信息处理领域拥有30项国家发明者专利,并成功运用在国内互联网领域。在国际顶级学术期刊和会议上发表多篇SCI论文,多次代表中国参加国际统计数据分析竞赛,并获得ACM冠军荣誉,2012年在伦敦获得国际统计数据分析邀请赛冠军。
在大统计数据分析领域提出了大批创新性控制技术,并成功运用在电商、信息传播领域。所提出的Multifaceted Factorization Models控制技术在SNS网络挖掘方面达到了国际先进水平,所提出的Ensemble Recommendation控制技术在互联网用户兴趣建模和推荐领域得到了大批的运用,并实现了可观的经济效益。