(1)方式化统计数据
IT系统造成的统计数据,通常依照统计计算机程序数学模型分成方式化统计数据、半方式化统计数据和非方式化统计数据。绝大部分亲密关系型统计资料库中储存的统计数据,有著卓越的储存内部结构,他们称作方式化统计数据。
绝大部分方式化统计数据能单纯地用三维方式的表单储存。如表2-1,通常以犯罪行为基层单位,带队统计状态参数示三个虚拟的关键信息,每带队统计数据的特性是完全相同的,它历史记录了有关人员的联系电话、年纪、异性恋和序号。
表2-1 三维表单实例
方式化统计数据的储存和排序是很有规律的,也易于查阅、修正。但,它的可扩展性并不太好。比如说,表 2-1中,假如要临时性减少三个体格的表头,就无法间接历史记录,要先修正表单的内部结构就可以看清楚。
(2)半方式化统计数据
半方式化统计数据是方式化统计数据的一类方式,它并不合乎亲密关系型统计资料库或其它统计状态参数的方式关连出来的统计数据源内部结构,但包涵有关记号,需用来隔开语法原素和对历史记录和表头展开多层。因而,它也被称作自描述的内部结构。半方式化统计数据,归属于同两类虚拟能有相同的特性,即便它们被女团在一同,那些特性的次序也并不关键。
常用的半方式化统计数据有XML和JSON,图2-1为三个XML文件格式的统计数据历史记录。
图2-1 XML统计计算机程序实例
从上面的例子中能看到那些历史记录,其特性的次序是不关键的,特性的个数也能是不一样的。那些半方式化统计数据的内部结构类似树或者图。图2-1能看出, 标签是树的根节点,和标签是子节点。通过这样的统计数据文件格式,能自由地表达很多有用的关键信息,包括自我描述关键信息(元统计数据)。所以,半方式化统计数据的可扩展性是很好的。
(3)非方式化统计数据
顾名思义,非方式化统计数据就是没有固定内部结构的统计数据。各种文档(如word、pdf、ppt)、图片(jpeg、png、gif等)、视频、音频等都归属于非方式化数据,如图2-2。对于这类统计数据,他们通常采用二进制的统计数据文件格式间接整体展开储存。
图2-2 非方式化统计数据
非方式化统计数据分析出来难度大,也不那么直观,比如说视频、音频统计数据,或一些文件、网页等等,那些统计数据通常储存在NoSQL统计资料库或者文件储存系统中。本书讨论的统计数据建模,主要是指方式化统计数据的建模。
方式化统计数据的类型
方式化统计数据的表头类型单纯来分,能分成数值型(Measure)统计数据和非数值型(Attribute)统计数据。其中,数值型统计数据是可度量的统计数据,比如说历史记录的“学生成绩”或者“销售收入”,能用来求和,计算平均值、最大值或最小值等。
非数值型统计数据又称作特性统计数据。能细分成字符串(String)类型、日期时间(Timestamp)两大类。字符串通常用来表达多种类别,如“男”“女”;或者“广东省”“浙江省”等等。字符串类型的统计数据是无法展开求和(Sum)等计算的,但能用来计数(Count)或计算分布。日期时间是一类特殊的特性统计数据,有次序和周期的特性。时间序列往往支持一些特殊的聚合操作,比如说能对日期时间统计数据按周、月、季度、年展开统计。
方式化统计数据的类型概念非常关键,在接下来的建模分析章节中,他们将看到,DataFocus系统需要他们有效识别统计数据类型,就可以合理地做出统计数据分析和建模呈现。
统计数据科学及过程
和大多数统计数据分析业务一样,统计数据建模也非常注重科学实践。好的统计数据分析方法往往能事半功倍。通常,要让统计数据可视化项目获得成功,分析有关人员要分五个步骤(图2-3)展开:
◎ 定义问题;
◎ 统计数据建模;
◎ 探索统计数据;
◎ 建模和分享结果。
其中,绝大部分人可能会认为第一步是最单纯的一步,其实定义问题往往是最困难的部分,也是最关键的部分。定义问题决定了你的工作方向,因而多花点时间把定义问题弄清楚总是值得的。
唯有全面收集到所需要的统计数据,就可以为解决问题奠定基础,所以这一步非常具有挑战性。
有了统计数据以后,应用他们所学的知识,将现有统计数据展开归类整理,将一些内部结构不规范、零散的统计数据展开清洗、关连,创建统计数据源,为后续使用DataFocus展开分析创造条件。接下来,就是发挥分析师逻辑思考能力和想象力的时候了。对统计数据展开有效的探索,逐步揭示出事物运行的规律,找到解决问题的钥匙。探索分析过程往往需要大量尝试和重复操作,这个时候,高效的探索分析工具显得尤为关键。最后,将您的发现和成果有效展开展示和分享,这是传达整个统计数据分析项目价值的关键一步。分析结果也许看出来非常明显和单纯,但将其总结为他人易于理解的方式比看出来困难得多,优美的建模展示能高效地传达统计数据关键信息,提高成果交付率。
图2-3统计数据建模的关键步骤
小结
本章概述了统计计算机程序的基本知识,介绍了方式化统计数据的具体类型:储存于三维附注的数值型统计数据和非数值型统计数据各自对应着相同的统计计算和数学操作,这是统计数据建模的基础。