统计学最常用的「数据分析方法」清单（一） - 网站源码_资源分享

经常会有好友问到一个好友，统计数据数据预测常见的预测方式有甚么样，我须要自学别的等等等等的问题，今天统计数据数据预测优选给我们重新整理了八种常见的统计数据数据预测方式，供我们参照自学。

一、描述统计数据

描述统计数据是通过图象或数学方式，对统计数据参照资料展开重新整理、预测，并对统计数据数据的原产状态、数字特征和随机表达式间亲密关系展开估计和描述的方式。描述统计数据分为分散态势预测和离中态势预测和有关预测三大部分。

1. 分散态势预测

分散态势预测主要靠平均值、中数、众如有统计数据分项来表示统计数据数据的分散态势。比如受试者的平均战绩多少？是正偏原产还是负偏原产？

2. 离中态势预测

离中态势预测主要靠全距、三分差、平均差、标准差（相关系数：用来测度三个随机表达式亲密关系的统计数据量）、平均值等统计数据分项来科学研究统计数据数据的离中态势。比如，他们想晓得三个在校学生的外语战绩中，别的年级内的战绩原产更分散，就能用三个年级的三分差或百分点来比较。

3. 有关预测

有关预测深入探讨统计数据数据间是否具有统计数据学上的相关性。这种亲密关系既主要包括三个统计数据数据间的单个有关亲密关系——如年纪与对个人应用领域内部空间间的亲密关系，也主要包括多个统计数据数据间的双重有关亲密关系——如年纪、忧郁症死亡率、对个人应用领域内部空间间的亲密关系；既主要包括A大B就大(小)，A小B就小(大)的直线有关亲密关系，也能是复杂有关亲密关系（A=Y-B*X）；既能是A、B表达式同时增大此种正有关亲密关系，也能是A表达式增大时B表达式增大此种负有关，还主要包括两表达式共同变动的密切某种程度——即相亲密关系数。

实际上，有关亲密关系唯一不科学研究的统计数据数据亲密关系，是统计数据数据协作变动的外在依照——即因果亲密关系。获得相亲密关系数有甚么用呢？具体来说，有了相亲密关系数，就能依照eliminate，展开A表达式到B表达式的估计，这是所谓的回归预测，因此，有关预测是一种完整的统计数据科学研究方式，它横跨于提出假定，统计数据数据科学研究，统计数据数据预测，统计数据数据科学研究的始终。

比如，他们想晓得对拘留所情境展开甚么改造，能降低逃亡者的暴力行为倾向。他们就须要将不同的囚舍颜色主调、囚舍城市绿化某种程度、牢房ISTAT、Caquet时间、探视时间展开排列组合，然后让每个牢房一种实验处理，然后用因素预测法找出与逃亡者暴力行为倾向的相亲密关系数最高的因素。假定这一因素为牢房ISTAT，他们又要将受试者随机分入不同ISTAT的十几个牢房中生活，继而得到ISTAT和暴力行为倾向两组表达式（即他们讨论过的A、B两列表达式）。然后，他们将ISTAT排入X轴，将暴力行为倾向分排入Y轴，获得了一个很有价值的图象，当某典狱长想晓得，某囚舍扩建到N人/间牢房，暴力行为倾向能降低多少。他们能当前ISTAT和改建后ISTAT带入相应的eliminate，算出扩建前的预期暴力行为倾向和扩建后的预期暴力行为倾向，两统计数据数据之差即典狱长想晓得的结果。

4. 推论统计数据

推论统计数据是统计数据学乃至于心理统计数据学中较为年轻的一部分内容。它以统计数据结果为依据，来证明或推翻某个命题。具体来说,是通过预测样本与样本原产的差异，来估计样本与总体、同一样本的前后测战绩差异，样本与样本的战绩差距、总体与总体的战绩差距是否具有显著性差异。

比如，他们想科学研究教育背景是否会影响人的智力测验战绩。能找100名24岁大学毕业生和100名24岁初中毕业生。采集他们的一些智力测验战绩。用推论统计数据方式展开统计数据数据处理，最后会得出类似这样儿的结论：“研究发现，大学毕业生组的战绩显著高于初中毕业生组的战绩，二者在0.01水平上具有显著性差异，说明大学毕业生的一些智力测验战绩优于中学毕业生组。”

5. 正态性检验

很多统计数据方式都要求数值服从或近似服从正态分布，所以之前须要展开正态性检验。

常见方式：非参数检验的K-量检验、P-P图、Q-Q图、W检验、动差法。

二、假定检验&参数检验

参数检验是在已知总体原产的条件下（一股要求总体服从正态原产）对一些主要的参数(如均值、百分数、标准差、相亲密关系如有）展开的检验。

⏩ 【U验】使用条件：当样本含量n较大时，样本值符合正态原产

⏩ 【T检验】使用条件：当样本含量n较小时，样本值符合正态原产

单样本t检验：推断该样本来自的总体均数μ与已知的某一总体均数μ0 (常为理论值或标准值)有无差别

配对样本t检验：当总体均数未知时，且三个样本能配对，同对中的两者在可能会影响处理效果的各种条件方面扱为相似

两独立样本t检验：无法找到在各方面极为相似的两样本作配对比较时使用

非参数检验：

非参数检验则不考虑总体原产是否已知，常常也不是针对总体参数，而是针对总体的某些一股性假定（如总体原产的位罝是否相同，总体原产是否正态）展开检验。

适用情况：顺序类型的统计数据参照资料，这类统计数据数据的原产形态一般是未知的。A 虽然是连续统计数据数据，但总体原产形态未知或者非正态；B 体原产虽然正态，统计数据数据也是连续类型，但样本容量极小，如10以下

主要方式主要包括：卡方检验、秩和检验、二项检验、游程检验、K-量检验等。

三、信度预测

即可靠性，它是指采用同样的方式对同一对象重复测量时所得结果的一致性某种程度。信度分项多以相亲密关系数表示，大致可分为三类：稳定系数（跨时间的一致性），等值系数（跨形式的一致性）和外在一致性系数（跨项目的一致性）。信度预测的方式主要有以下四种：重测信度法、复本信度法、折半信度法、α信度系数法。

方式如下：

1. 重测信度法编辑

这一方式是用同样的问卷对同一组被调查者间隔一定时间重复施测，计算两次施测结果的相亲密关系数。显然，重测信度属于稳定系数。重测信度法特别适用于事实式问卷，如性别、出生年月等在两次施测中不应有任何差异，大多数被调查者的兴趣、爱好、习惯等在短时间内也不会有十分明显的变动。如果没有突发事件导致被调查者的态度、意见突变，此种方式也适用于态度、意见式问卷。由于重测信度法须要对同一样本试测两次，被调查者容易受到各种事件、活动和他人的影响，而且间隔时间长短也有一定限制，因此在实施中有一定困难。

2. 复本信度法编辑

让同一组被调查者一次填答两份问卷复本，计算三个复本的相亲密关系数。复本信度属于等值系数。复本信度法要求三个复本除表述方式不同外，在内容、格式、难度和对应题项的提问方向等方面要完全一致，而在实际调查中，很难使调查问卷达到此种要求，因此采用此种方式者较少。

3. 折半信度法编辑

折半信度法是将调查项目分为两半，计算两半得分的相亲密关系数，进而估计整个量表的信度。折半信度属于外在一致性系数，测量的是两半题项得分间的一致性。此种方式一般不适用于事实式问卷（如年纪与性别无法相比），常见于态度、意见式问卷的信度预测。

在问卷调查中，态度测量最常见的形式是5级李克特（Likert）量表（李克特量表(Likert scale)是属评分加总式量表最常见的一种，属同一构念的这些项目是用加总方式来计分，单独或个别项目是无意义的。它是由美国社会心理学家李克特于1932年在原有的总加量表基础上改进而成的。该量表由一组陈述组成，每一陈述有”非常同意”、”同意”、”不一定”、”不同意”、”非常不同意”五种回答，分别记为5、4、3、2、1，每个被调查者的态度总分是他对各道题的回答所得分数的加总，这一总分可说明他的态度强弱或他在这一量表上的不同状态。）。展开折半信度预测时，如果量表中含有反意题项，应先将反意题项的得分作逆向处理，以保证各题项得分方向的一致性，然后将全部题项按奇偶或前后分为尽可能相等的两半，计算二者的相亲密关系数（rhh，即半个量表的信度系数），最后用斯皮尔曼-布朗（Spearman-Brown）公式：求出整个量表的信度系数（ru）。

4. α信度系数法

α信度系数是目前最常见的信度系数，其公式为：α=(k/(k-1))*(1-(∑Si^2)/ST^2)。其中，K为量表中题项的总数， Si^2为第i题得分的题内标准差， ST^2为全部题项总得分的标准差。从公式中能看出，α系数评价的是量表中各题项得分间的一致性，属于外在一致性系数。此种方式适用于态度、意见式问卷（量表）的信度预测。

总量表的信度系数最好在0.8以上，0.7-0.8间能接受；分量表的信度系数最好在0.7以上，0.6-0.7还能接受。Cronbach s alpha系数如果在0.6以下就要考虑重新编问卷。用于检査测量的可信度，比如调查问卷的真实性。

分类有2种：

外在信度：不同时间测量时量表的一致性某种程度，常见方式重测信度；

外在信度：每个量表是否测量到单个的概念，同时组成两表的外在体项一致性如何，常见方式分半信度；

四、列联表预测

列联表是观测统计数据数据按三个或更多属性（定性表达式）分类时所列出的频数表。

1. 简介

若总体中的个体可按三个属性A、B分类，A有r个等级A1,A2,…，Ar，B有c个等级B1,B2,…，Bc,从总体中抽取大小为n的样本，设其中有nij个个体的属性属于等级Ai和Bj，nij称为频数，将r×c个nij排列为一个r行c列的二维列联表，简称r×c表。若所考虑的属性多于三个，也可按类似的方式作出列联表，称为多维列联表。

列联表又称交互分类表，所谓交互分类，是指同时依据三个表达式的值，将所科学研究的个案分类。交互分类的目的是将两表达式分组，然后比较各组的原产状况，以寻找表达式间的亲密关系。用于预测离散表达式或定型表达式间是否存在有关。列联表预测的基本问题是，判明所考察的各属性间有无关联，即是否独立。

如在前例中，问题是：一对个人是否色盲与其性别是否有关？在r×с表中，若以pi、pj和pij分别表示总体中的个体属于等级Ai，属于等级Bj和同时属于Ai、Bj的概率（pi，pj称边缘概率，pij称格概率）,“A、B两属性无关联”的假定能表述为H0：pij=pi·pj，(i=1，2，…，r；j=1,2,…，с)，未知参数pij、pi、pj的最大似然估计（见点估计）分别为行和及列和（统称边缘和）为样本大小。依照K.皮尔森(1904)的拟合优度检验或似然比检验（见假定检验）,当h0成立，且一切pi>0和pj>0时，统计数据量的渐近原产是自由度为(r－1)(с－1) 的Ⅹ原产，式中Eij=(ni·nj)/n称为期望频数。当n足够大，且表中各格的Eij都不太小时，能据此对h0作检验：若Ⅹ值足够大，就拒绝假定h0，即认为A与B有关联。在前面的色觉问题中，曾按此检验，判定出性别与色觉间存在某种关联。

2. 注意点

若样本大小n不很大,则上述基于渐近原产的方式就不适用。对此，在四格表情形，R.A.费希尔(1935)提出了一种适用于所有n的精确检验法。其思想是在固定各边缘和的条件下，依照超几何原产（见概率原产），能计算观测频数出现任意一种特定排列的条件概率。把实际出现的观测频数排列，以及比它呈现更多关联迹象的所有可能排列的条件概率都算出来并相加，若所得结果小于给定的显著性水平，则判定所考虑的三个属性存在关联，从而拒绝h0。

对于二维表，可展开卡方检验，对于三维表，可作Mentel-Hanszel分层预测。列联表预测还主要包括配对计数资料的卡方检验、行列均为顺序表达式的有关检验。