知识导学
数理统计学的核心问题是如何根据样本的情况对总体的情况作出一种推断.这里包括两类问题:一类是如何从总体中抽取样本;另一类是如何根据对样本的整理、计算和分析,对总体的情况作出判断.只有合理科学地抽取样本,然后才能作出客观的统计推断.
我们的课本介绍了三种基本的抽样方法:简单随机抽样、系统抽样和分层抽样,而简单随机抽样作为一种最简单的抽样方法,是其他两种方法的基础.
就简单随机抽样我们要着重强调以下四点:1.它要求被抽取样本的总体的个体数有限;2.它是从总体中逐个进行抽取;3.它是一种不放回抽样;4.它是一种等概率抽样.
简单随机抽样是在特定总体中抽取样本,总体中每一个体被抽取的可能性是等同的,而且任何个体之间彼此被抽取的机会是独立的.如果用从个体数为N的总体中抽取一个容量为n的样本,那么每个个体被抽取的概率等于.
常用的简单随机抽样方法有抽签法和随机数表法.抽签法比较简单,我们容易掌握.随机数表抽样方法是按照统计专家根据随机化原则编制的一种数字表,随机选取一组数,读数方向可以向右,也可以向左、向上、向下.
随机抽样并不是随意或随便抽取,因为随意或随便抽取都会带有主观或客观的影响因素.
例如,要从一个700人的总体中抽取样本量为15的样本,先将这700人按001~700编号(或000~699,注意一定位数相同),从表中的任一位置,例如从第6行、第7列开始,向右(可以向其他任何方向)连续地以三位数字为一个数码,得到的数码如下:
上面有下划线的数码均有相应的单元与之对应,则对应单元入样,依次选够15个为止.其他超过700的数码没有对应单元,去掉即可.数码618出现了二次,第二个618也要去掉不算.这两种方法,以随机数表法实施起来更为便利,特别是总体非常大的情况,用抽签法是几乎不可能的.
简单随机抽样的优越性在于方法简单直观,当总体名单完整时,可直接从中随机选取样本,由于抽取概率相同,计算抽样误差及对总体指标进行推断时比较方便.但是在实际的调查中,编制和获得完整的总体是非常困难的,也是不可能做到的,而且简单抽样得到的样本较为分散,会消耗比较大的调查成本,因此简单随机抽样适合于总体单位数不是很庞大,而且样本分布比较均匀情况.
系统抽样也叫等距抽样(课本上称为机械抽样),先将总体的每个单元编号,并按照一定顺序排列,然后按一定间隔选取样本的抽样方法.等距抽样经常作为简单随机抽样的代替物使用,所得到的样本几乎与简单随机抽样的样本相同.
使用等距抽样的方式,也必须获得一份总体的单位表,这一点与简单随机抽样是一样的.决定抽样间隔的运算公式是:样本距离=总体单位数÷样本单位数.课本上没有提“样本距离”的概念,其实课文中说的“系统抽样的间距”就是这个概念,而且已经很详细地指出了它的求解过程和方法,我们不再赘述.
例如要从120户居民中选出7户,使用系统(等距)抽样的过程如下:
a. 先将120户居民从“1”到“120”编号;
b. 决定间隔数;120/7=17.1,最接近的整数是17,间隔数定为17.
c. 抽取第一个编号:等距抽样的方式可以随意使用一个起点,可通过随机表选取,也可按照简单的主观随意决定第一个编号.
d. 然后每隔17抽取一个编号,这时可能出现两种情况:第一是开始的号码比较大,按照间隔抽选时,会出现超出编号的可能,即1);第二是选中的样本偏好在总体编号的范围内,即2):
1)38,55,72,89,106,123(3),140(20);
2)8,25,42,59,76,93,110
“1)”中最后两个编号超过了120,则把它们分别减去120,得到最后的编号3,20.最后这些编号所对应单元入样.
“2)”里由于第一个编号限定在1至17之间,所以没有出现超过120的编号,则所抽中编号不需修正,它们所对应单元入样.由此可见,在确定第一个编号时,“2)”的方法更为简便.
分层抽样又称类型抽样,是先将总体的所有单位按某些重要特性分成若干互不重叠的子总体(或层),然后在各个子总体(或层)中采用简单随机抽样或者等距抽样方式抽取样本单位的一种抽样方法.
在分层时可以根据调查的具体要求,按照一个或多个特性来分层.比如下面的例子是按照教育程度和性别这两个指标来分层的.为便于计算,假设总体是1,000,000人,从中抽取1,000人的样本.教育程度作为第一阶段分层的指标,性别作为第二阶段分层的指标,先按教育程度分为四组,每组再按性别分成两组,共分为八层,如图所示.
从中可以看到,整个抽样过程是先按照教育程度和性别将总体分为八层,根据各种教育程度在总体中所占比例和各种教育程度中男女所占比例,计算出每层的人数,再按照“1000/ 1000000=1/1000”的比例从每一层中随机抽取子样本,八个子样本合在一起即为样本.
分层抽样的优点在于:(1)由于总体中常有少数特殊单元,用简单随机抽样得到的样本中,这些特殊单元所占的比例容易过高或过低,而影响估计量的精度,分层抽样可以将这些特殊单元做为一层,从而避免上述情况,使样本更具代表性.(2)可以根据需要对各层的特性加以比较.(3)从管理和实施上看,比简单随机抽样便利得多.
上面比较详细地介绍了课本中所涉及到的三种抽样方法,以及这三种方法的优缺点和相互之间的联系和比较.这三种抽样方法经常交叉起来使用,比如:分层抽样,若每层中个体数量仍很大,则可辅之系统抽样.系统中的均衡的部分,又可采用简单随机抽样.
|