统计 联系客服

发布时间 : 星期日 文章统计更新完毕开始阅读423156317fd5360cba1adbd4

第3章 基本统计分析

某高中,期末考试刚刚考过,两班的班主任飞天和神马在聊天。飞天说:“你们班期末考试考得怎么样啊?”神马说:“哎,刚刚改出来,还没统计呢,你们班怎么样?”飞天说:“别提了,各科中只有数学考得好一点,满分150分的卷子,平均分是95分,而且高分不多,大多集中在97分左右,其他各科两极分化很严重,好的好,差的差,恼人呐!”

这两位班主任的对话中,很多内容实际上就涉及本章要介绍的内容——描述性统计。统计分析的目的是研究总体的特征,像神马他们班的考试成绩刚刚改出来,还没有做统计分析,所以当别人问他们班考试情况时,他就无言以对。而飞天在谈话的过程中,就说到了常用的一些描述性的统计量。描述性统计分析是统计分析的基础,是对一组数据分布的集中或离散情况以及分布状况的描述。

3.1 常用描述统计量简介

在统计分析中常用到的描述统计量主要包括以下类别。

? 集中量数:包括均值、众数、中数、几何均数、调和均数、加权平均数及总和。 ? 差异量数:包括最小值、最大值、全距、方差、标准差等。

? 分布指标:包括偏度系数、峰度系数,它们是用于反映数据偏离正态分布程度的

指标。

? 百分位值及标准分数:用于描述某一数值在一组数据中的相对位置。常用的指标

包括百分等级与百分位数,Z分数等。

下面将对SPSS中常用到的一些描述性统计指标进行简单介绍。

? 均值:指一组数据的算术平均数,描述一组数据的平均水平。计算简单,反应灵

敏,适用于需进一步的计算其他统计量的情况。其为集中量数中波动最小的、最可靠的指标。

? 众数:是一组数据中出现次数最多的那个数值。可快速粗略的估计一组数据,且

不受极端值的影响。

? 中数:又称中位数,中值。指当一组数据按顺序排列后,位于中间位置的数。也

可用于快速估计一组数据的代表值,并不受极端值的影响。

? 全距:用一组数据的最大值减去最小值即为本组数据的全距。它是描述一组数据

离散情况最简单的统计量。

? 方差:是每个数据与本组数据均值之差平方之后的平均数,是一组数据中各种变

异的总和。

? 标准差:即为方差的平方根。方差和标准差是描述一组数据离散程度最常用最好

第3章 基本统计分析

的指标。值越大,表明数据的离散程度越大;值越小,表明数据的离散程度越小。 ? 偏度系数:用来评估一组数据的分布呈左右对称的程度。当偏度值为0时,分布

即为对称的;当偏度值大于0时,分布呈正偏态;当偏度值小于0时,分布呈负偏态。

? 峰度系数:是用来评估一组数据分布形状的高狭与低阔程度的指标。当峰度值接

近于0时,此分布形状的高狭程度与正态分布基本一致;当峰度值大于0时,分布的峰度较高狭;当峰度值小于0时,分布的峰度较低阔。

? 百分位数:指在一组数据中在某一百分等级的观察值的分数。与百分等级是可以

相互转换的。四分位数是常用的一种百分位数。 ? Z分数:是最为常用的一种标准分数。它表示原始分数在一组数据中所处的相对位

置。它无实际单位,是以平均数为参照点,以标准差为单位的分数。转换为Z分数之后,原本性质不同的分数即可进行比较或者计算。

另外,描述统计中也常结合一些统计图表来表现数据的整体情况。其中包括条图、饼图、直方图、箱式图等。

在SPSS中,专门进行数据的描述统计分析的几个模块集中于“分析”菜单的下拉菜单“描述统计”中,如图3-1所示。这些模块分别如下。

? 频率过程:除了一般描述统计的各种指标外,还可以

生成频数表及各种常用的描述统计图形。

? 描述过程:此过程专门用于进行各种描述统计。此过

程的操作及功能很简单,使用方便。

? 探索过程:该过程通过各种专门的统计指标和统计图

表,来对数据进行整理和检查等探索性分析。 ? 交叉表过程:主要进行分类变量或等级变量的统计描图3-1 “描述统计”菜单

述,以及各种各样的统计检验,包括我们常用到的卡方检验。

? 比率过程:是用于对两个连续性变量的比值进行描述的指标。在实际中也常有非

常重要的作用。

3.2 频 数 统 计

频数是指同一观测值在一组数据中出现的次数,在这一节中将介绍SPSS软件中专门为生成频数分布表而设计的分析模块——“频率”过程。

3.2.1 频数统计的主要功能

“频率”过程可以产生频数分布表,以对数据按组进行归类整理。还可以生成各种描述性统计指标,以及条形图、饼图、直方图等常用的统计图。通过选择SPSS中的“分析”︱“描述统计”︱“频率”命令,可以对各变量的数据分布特征有一个概括的整体认识。

·51·

第1篇 统计初体验——基本操作入门

3.2.2 频数统计的操作过程

在SPSS中频数统计的操作过程如下。 (1)建立并打开数据文件。

(2)打开“频率”主对话框:选择“分析”︱“描述统计”︱“频率”命令,打开如图3-2所示的“频率”主对话框。

(3)选择变量:左侧的列表框为源变量列表框,会呈现出所有变量名,可以根据需要将欲分析的变量移入右侧的“变量”列表框中。

(4)勾选复选框:左下角有一个“显示频率表格”复选框,如果勾选该复选框,在输出的结果中将列出频数分布的表格。

(5)选择统计量:单击“统计量”按钮,弹出如图3-3所示的“频率:统计量”对话框。此对话框提供了4类描述统计量。4个选项组分别是“百分位值”、“离散”、“集中趋势”和“分布”,还包括一个“值为组的中点”复选框。

图3-2 “频率”对话框 图3-3 “频率:统计量”对话框

? “百分位值”选项组,其中包括3个复选框。“四分位数”复选框,选择后结果将

输出变量的四分位数;“割点”复选框,可以选取任意割点,将数据分为几个等组(默认值为10);“百分位数”复选框,选择此复选框后,可选取任意百分位数通过“添加”按钮移入下方列表框,并可以通过“更改”按钮和“删除”按钮对其进行相应操作。

? “离散”选项组,即差异量数选项组。包括“标准差”、“方差”、“范围”(即

为全距)、“最小值”、“最大值”和“均值的标准误”6个复选框。

? “集中趋势”选项组,包括“均值”、“中位数”、“众数”和“合计”4个复选框。 ? “值为组的中点”复选框,表示当一组数据分组后,且其值取各组的中点时,可选

择此选项,以正确的对原始的未分组数据的中数及百分位数进行估计。

? “分布”选项组,是描述数据分布形态的选项组。包括“偏度”复选框和“峰度”

复选框。

·52 ·

第3章 基本统计分析

单击“继续”按钮,完成设置,返回“频率”主对话框。

(6)选择图表:单击“图表”按钮,弹出“频率:图表”对话框,如图3-4所示。该对话框的功能是选择所要输出的统计图表。该对话框包括两个选项组。

? “图表类型”选项组:该选项组有4个单选按钮。选择“无”单选按钮时,结果中

不会输出图形。此外,可以选中“条形图”、“饼图”、“直方图”单选按钮,在结果中将输出相应类型的图表。其中选中“直方图”单选按钮后,会激活其下方的“在直方图上显示正态曲线”复选框,勾选该复选框,则在输出的直方图中会显示正态分布的曲线,用于帮助判断数据是否近似成正态分布,但这仅是一个粗略而直观的判断。

? “图表值”选项组:该选项组有“频率”和“百分比”两个单选按钮选项。选择“频

率”单选按钮时,所输出的图形以频数为单位生成;在选中“百分比”单选按钮时,输出图形以百分比为单位生成。另外,“图表值”选项组仅在“图表类型”选项组中选中“条形图”和“饼图”时才可以使用。

该对话框设置完毕后,单击“继续”按钮,返回“频率”主对话框。

(7)选择输出格式:在主对话框中,单击“格式”按钮,弹出“频率:格式”对话框,如图3-5所示。该对话框用于调整结果输出的格式,有两个选项组。

图3-4 “频率:图表”对话框 图3-5 “频率:格式”对话框

? “排序方式”选项组:用于调整输出的频数分布表的排列顺序。其中包括以下4个

单选按钮。

? 按值的升序排序:对频数分布依据数值的大小进行升序排列。 ? 按值的降序排序:对频数分布依据数值的大小进行降序排列。 ? 按计数的升序排序:对频数分布依据频数的大小进行升序排列。 ? 按计数的降序排序:对频数分布依据频数的大小进行降序排列。

? “多个变量”选项组:用于选择有多个变量时结果的输出方式。选中“比较变量”

单选按钮,则将各个变量的同一种报表放在一起输出;选中“按变量组织输出”单选按钮,则是按各变量而分别输出结果。

? “排除具有多个类别的表”复选框:勾选该复选框,表明对于变量有太多类别时则

不输出频数分布表。在该复选框下面还带有一个“最大类别数”文本框,用于界定进行此功能的最大类别数,系统默认值为10。

·53·