知识导学

数理统计学的核心问题是如何根据样本的情况对总体的情况作出一种推断.这里包括两类问题:一类是如何从总体中抽取样本;另一类是如何根据对样本的整理、计算和分析,对总体的情况作出判断.只有合理科学地抽取样本,然后才能作出客观的统计推断.

我们的课本介绍了三种基本的抽样方法:简单随机抽样、系统抽样和分层抽样,而简单随机抽样作为一种最简单的抽样方法,是其他两种方法的基础.

就简单随机抽样我们要着重强调以下四点:1.它要求被抽取样本的总体的个体数有限;2.它是从总体中逐个进行抽取;3.它是一种不放回抽样;4.它是一种等概率抽样.

简单随机抽样是在特定总体中抽取样本,总体中每一个体被抽取的可能性是等同的,而且任何个体之间彼此被抽取的机会是独立的.如果用从个体数为N的总体中抽取一个容量为n的样本,那么每个个体被抽取的概率等于

常用的简单随机抽样方法有抽签法和随机数表法.抽签法比较简单,我们容易掌握.随机数表抽样方法是按照统计专家根据随机化原则编制的一种数字表,随机选取一组数,读数方向可以向右,也可以向左、向上、向下.

随机抽样并不是随意或随便抽取,因为随意或随便抽取都会带有主观或客观的影响因素.

例如,要从一个700人的总体中抽取样本量为15的样本,先将这700人按001700编号(或000699,注意一定位数相同),从表中的任一位置,例如从第6行、第7列开始,向右(可以向其他任何方向)连续地以三位数字为一个数码,得到的数码如下:
   
  上面有下划线的数码均有相应的单元与之对应,则对应单元入样,依次选够15个为止.其他超过700的数码没有对应单元,去掉即可.数码618出现了二次,第二个618也要去掉不算.这两种方法,以随机数表法实施起来更为便利,特别是总体非常大的情况,用抽签法是几乎不可能的.
  简单随机抽样的优越性在于方法简单直观,当总体名单完整时,可直接从中随机选取样本,由于抽取概率相同,计算抽样误差及对总体指标进行推断时比较方便.但是在实际的调查中,编制和获得完整的总体是非常困难的,也是不可能做到的,而且简单抽样得到的样本较为分散,会消耗比较大的调查成本,因此简单随机抽样适合于总体单位数不是很庞大,而且样本分布比较均匀情况.

系统抽样也叫等距抽样(课本上称为机械抽样),先将总体的每个单元编号,并按照一定顺序排列,然后按一定间隔选取样本的抽样方法.等距抽样经常作为简单随机抽样的代替物使用,所得到的样本几乎与简单随机抽样的样本相同.
  使用等距抽样的方式,也必须获得一份总体的单位表,这一点与简单随机抽样是一样的.决定抽样间隔的运算公式是:样本距离=总体单位数÷样本单位数.课本上没有提“样本距离”的概念,其实课文中说的“系统抽样的间距”就是这个概念,而且已经很详细地指出了它的求解过程和方法,我们不再赘述.

例如要从120户居民中选出7户,使用系统(等距)抽样的过程如下:
  a 先将120户居民从“1”“120”编号;
  b 决定间隔数;120/717.1,最接近的整数是17,间隔数定为17
  c 抽取第一个编号:等距抽样的方式可以随意使用一个起点,可通过随机表选取,也可按照简单的主观随意决定第一个编号.
  d 然后每隔17抽取一个编号,这时可能出现两种情况:第一是开始的号码比较大,按照间隔抽选时,会出现超出编号的可能,即1);第二是选中的样本偏好在总体编号的范围内,即2):
  1385572891061233),14020);
  282542597693110
  “1中最后两个编号超过了120,则把它们分别减去120,得到最后的编号320.最后这些编号所对应单元入样.
  “2里由于第一个编号限定在117之间,所以没有出现超过120的编号,则所抽中编号不需修正,它们所对应单元入样.由此可见,在确定第一个编号时,“2的方法更为简便.

分层抽样又称类型抽样,是先将总体的所有单位按某些重要特性分成若干互不重叠的子总体(或层),然后在各个子总体(或层)中采用简单随机抽样或者等距抽样方式抽取样本单位的一种抽样方法.
  在分层时可以根据调查的具体要求,按照一个或多个特性来分层.比如下面的例子是按照教育程度和性别这两个指标来分层的.为便于计算,假设总体是1,000,000人,从中抽取1,000人的样本.教育程度作为第一阶段分层的指标,性别作为第二阶段分层的指标,先按教育程度分为四组,每组再按性别分成两组,共分为八层,如图所示.

中可以看到,整个抽样过程是先按照教育程度和性别将总体分为八层,根据各种教育程度在总体中所占比例和各种教育程度中男女所占比例,计算出每层的人数,再按照“1000/ 10000001/1000”的比例从每一层中随机抽取子样本,八个子样本合在一起即为样本.
  分层抽样的优点在于:(1)由于总体中常有少数特殊单元,用简单随机抽样得到的样本中,这些特殊单元所占的比例容易过高或过低,而影响估计量的精度,分层抽样可以将这些特殊单元做为一层,从而避免上述情况,使样本更具代表性.(2)可以根据需要对各层的特性加以比较.(3)从管理和实施上看,比简单随机抽样便利得多.

上面比较详细地介绍了课本中所涉及到的三种抽样方法,以及这三种方法的优缺点和相互之间的联系和比较.这三种抽样方法经常交叉起来使用,比如:分层抽样,若每层中个体数量仍很大,则可辅之系统抽样.系统中的均衡的部分,又可采用简单随机抽样.

典型例题

1.从40件产品中要抽取10件进行检查,写出抽取样本的过程.

2.某工厂中共有职工3000人,其中,中、青、老职工的比例有532,从所有职工中抽取一个样本容量为400人的样本,应采取哪种抽样方法较合理?且中、青、老年职工应分别抽取多少人?

3.一批产品中,有一级品100个,二级品60个,三级品40个,分别用系统抽样和分层抽样方法,从这批产品中抽取一个容量为20的一个样本.

4.某批数量较大的商品的次品率是5%,从中任意地连续取出10件,ξ为所含次品的个数,求

思路分析:数量较大,意味着每次抽取时出现次品的概率都是0.05ξ可能取值是:0121010次抽取看成10次独立重复试验,所以抽到次品数ξ服从二项分布,由公式Eξ=np可得解.

5.某人进行10次试验,得观测数据如下:18201922202119192021.计算样本平均值及样本方差.

6.某次数学测验后进行成绩分析,从中随机抽取一容量为7的样本,其数据如下:88859393647177.试计算

习题精选

  1.分层抽样又称为类型抽样,即将相似的个体归入一类(层),然后每层抽若干构成样本,所以分层抽样为保证每个个体等可能入样,必须进行( 

    A.每层等可能抽样                        B.每层不等可能抽样

    C.所有层用同一抽样比,等可能抽样        D.所有层抽同样多样本容量,等可能抽样

  2.如果采用分层抽样,从个体数为N的总体中,抽取一个容量为n的样本,那么每个被抽到的概率z等于(  

    A               B              C             D

  3.某校高中生共有900人,其中高一年级300人,高二年级200人,高三年级400人,现采取分层抽样抽取容量为45的样本,那么高一、高二、高三各年级抽取的人数分别为(  

    A15525        B151515        C10530         D151020

  4.已知某一项改革方案与不同职业的人员有关系,为了抽查对这一方案的拥护率,采用__________抽样方法较合适.

  5.调查某单位职工健康状况,已知单位中青年人数为300,中年人数为150,老年人数为100,现考虑采用分层抽样,抽取容量为22的样本,则青年、中年、老年各层中分别抽取个体数分别为___________

  6.从个体总数N=500的总体中,抽取一个容量为n=10的样本,使用随机数表法进行抽选,要取三位数,写出你抽得的样本,并写出抽选过程.(起点在第几行,第几列,具体方法)

  7.从N=103的总体中采用系统抽样,抽取一个容量n=10的样本,写出你的抽取过程.

  8.某校500名学生中,O型血有200人,A型血有125人,B型血有125人,AB型血有50人,为了研究血型与色弱的关系,要从中抽取一个容量为20的样本,按照分层抽样方法抽取样本,各种血型的人要分别抽多少?写出抽样过程.

  9.因为样本是总体的一部分,是由某些个体组成的,尽管对总体有一定的代表性,但并不等于总体,为什么不把所有的个体考察一遍,使样本就是总体?