知识导学
客观事物是相互联系的过去研究的大多数是因果关系,但实际上更多存在的是一种非因果关系.比如说:某某同学的数学成绩与物理成绩,彼此是互相联系的,但不能认为数学是“因”,物理是“果”,或者反过来说.事实上数学和物理成绩都是“果”,而真正的“因”是学生的理科学习能力和努力程度.所以说,函数关系存在着一种确定性关系.但还存在着另一种非确定性关系——相关关系.
当自变量一定时,因变量的取值带有一定的随机性的两个变量之间的关系称为相关关系.
相关关系是非随机变量与随机变量之间的关系,函数关系是两个非随机变量之间的关系,是一种因果关系,而相关关系不一定是因果关系,所以相关关系与函数关系不同,其变量具有随机性,因此相关关系是一种非确定性关系.(有因果关系,也有伴随关系).因此,相关关系与函数关系的异同点如下:相同点:均是指两个变量的关系;不同点:函数关系是一种确定的关系;而相关关系是一种非确定关系;函数关系是自变量与因变量之间的关系,这种关系是两个非随机变量的关系;而相关关系是非随机变量与随机变量的关系.
对具有相关关系的两个变量进行统计分析的方法叫做回归分析.通俗地讲,回归分析是寻找相关关系中非确定性关系的某种确定性.
表示具有相关关系的两个变量的一组数据的图形叫做散点图.散点图形象地反映了各对数据的密切程度.粗略地看,散点分布具有一定的规律.
设所求的直线方程为,其中a、b是待定系数.则.于是得到各个偏差.
显见,偏差的符号有正有负,若将它们相加会造成相互抵消,所以它们的和不能代表几个点与相应直线在整体上的接近程度,故采用n个偏差的平方和.
,表示n个点与相应直线在整体上的接近程度.记作.
上述式子展开后,是一个关于a、b的二次多项式,应用配方法,可求出使Q为最小值时的a、b的值.即
,,
相应的直线叫做回归直线,对两个变量所进行的上述统计分析叫做回归分析.
对此我们需要注意:1.对回归直线方程只要求会运用它进行具体计算a、b,求出回归直线方程即可.不要求掌握回归直线方程的推导过程.
2.求回归直线方程,首先应注意到,只有在散点图大致呈线性时,求出的回归直线方程才有实际意义.否则,求出的回归直线方程毫无意义.因此,对一组数据作线性回归分析时,应先看其散点图是否成线性.
3.求回归直线方程,关键在于正确地求出系数a、b,由于求a、b的计算量较大,计算时仔细谨慎、分层进行,避免因计算产生失误.
4.回归直线方程在现实生活与生产中有广泛的应用.应用回归直线方程可以把非确定性问题转化成确定性问题,把“无序”变为“有序”,并对情况进行估测、补充.因此,学过回归直线方程以后,应增强应用回归直线方程解决相关实际问题的意识.
对于变量y与x的一组观测值,把=叫做变量y与x之间的样本相关系数,简称相关系数,用它来衡量两个变量之间的线性相关程度.
相关系数的性质:≤1,且越接近1,相关程度越大;且越接近0,相关程度越小.
显著性水平是统计假设检验中的一个概念,它是公认的小概率事件的概率值它必须在每一次统计检验之前确定.
显著性检验(相关系数检验的步骤)由显著性水平和自由度查表得出临界值,显著性水平一般取0.01和0.05,自由度为n-2,其中n是数据的个数.在“相关系数检验的临界值表”查出与显著性水平0.05或0.01及自由度n-2(n为观测值组数)相应的相关数临界值r0.05或r0.01;例如n=7时,r0.05=0.754,r0.01=0.874.求得的相关系数r和临界值r0.05比较,若r>r0.05,上面y与x是线性相关的,当≤r0.05或r0.01,认为线性关系不显著.
学习时我们要注意:
1、回归分析是处理变量间相关关系的一种数学方法.它主要解决以下几个方面的问题:
(1)确定几个特定的变量之间是否存在相关关系,如果存在的话找出它们之间适合的数学表达式;
(2)根据一个或几个变量的值,预测或控制另一个变量的取值,并且要知道所能达到的精确度;
(3)对于多元线性回归进行因素分析,以找出主要因素和次要因素.中学只要求了解一元线性回归问题.
体会和理解这些问题,有利于自己掌握这一内容的数学思想和方法.
2.借助计算器,能简化手工的运算,尤其是使用含统计的计算器(特别是含两组数据的统计用计算器,能迅速得出计算结果),其集成化的过程能大大方便人们的统计运算.建议学会基本的操作方法.
3.“回归”和“相关”含义是不同的:如果两个变量中的一个变量是人力可以控制、非随机的,另一变量的变化是随机的且随控制变量的变化而变化,则这两变量间的关系就称为回归关系;若两个变量都是随机的,则称它们之间的关系为相关关系,在本教材体系中,两者不加区别.
4.对于本节中的公式,主要是在理解其各符号含义的情况下,学会使用之,并且对其中的有些量,如b,r的意义应有所了解,以对资料进行简单的分析.
典型例题
例1.某工业部门进行一项研究,分析该部门的产量与生产费用之间的关系,从这个工业部门内随机抽选了10个企业作样本,有如下资料:
产量(千件)
x |
生产费用(千元)
y |
40 |
150 |
42 |
140 |
48 |
160 |
55 |
170 |
65 |
150 |
79 |
162 |
88 |
185 |
100 |
165 |
120 |
190 |
140 |
185 |
完成下列要求:
(1)计算x与y的相关系数;
(2)对这两个变量之间是否线性相关进行相关性检验;
(3)设回归直线方程为,求系数a,b.
分析:如果会使用含统计的科学计算器,能简单得到,,,这些量就无需有制表这一步,直接算出结果就行了.制表的目的是为了准确无误而快速有效地得到r和b的值.顺便值得一提的是:电脑中的许多应用软件,特别是表格类软件是提供统计计算函数的,用起来非常方便.
解:(1)使用样本相关系数(即相关系数)计算公式:
中完成此问:
(2)查表得出显著性水平0.05与自由度10-2相应的相关系数临界值,通过比较r与的大小,以检验所得结果,来说明y与x之间的线性相关是否显著.
(3)此问解法与上两题相同.
解:(1)制表:
|
|
|
|
|
|
1 |
40 |
150 |
1600 |
22500 |
6000 |
2 |
42 |
140 |
1764 |
19600 |
5880 |
3 |
48 |
160 |
2304 |
25600 |
7680 |
4 |
55 |
170 |
3025 |
28900 |
9350 |
5 |
65 |
150 |
4225 |
22500 |
9750 |
6 |
79 |
162 |
6241 |
26244 |
12798 |
7 |
88 |
185 |
7744 |
34225 |
16280 |
8 |
100 |
165 |
10000 |
27225 |
16500 |
9 |
120 |
190 |
14400 |
36100 |
22800 |
10 |
140 |
185 |
19600 |
34225 |
25900 |
合计 |
777 |
1657 |
70903 |
277119 |
132929 |
|
即x与y的相关系数.
(2)查表显著性水平0.05,自由度10-2=8相应的相关系数临界值;因为,,所以,可以认为x与y之间具有线性相关关系.
(3)
.
例2.在10年期间,一城市居民的年收入与某种商品的销售额之间的关系有如下数据
第几年 |
1 |
2 |
3 |
4 |
5 |
城市居民年收入x(亿元) |
32.2 |
31.1 |
32.9 |
35.8 |
37.1 |
某商品销售额y(万元) |
25.0 |
30.0 |
34.0 |
37.0 |
39.0 |
第几年 |
6 |
7 |
8 |
9 |
10 |
城市居民收入x(亿元) |
38.0 |
39.0 |
43.0 |
44.6 |
46.0 |
某商品销售额y(万元) |
41.0 |
42.0 |
44.0 |
48.0 |
51.0 |
(1)画出散点图;
(2)如果散点图中的各点大致分布在一条直线的附近,求y与x之间的回归直线方程.
解:(1)散点图如图:
(2)列出下表,利用计算器进行运算
|
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
10 |
|
32.2 |
31.1 |
32.9 |
35.8 |
37.1 |
38.0 |
39.0 |
43.0 |
44.6 |
46.0 |
|
25.0 |
30.0 |
34.0 |
37.0 |
39.0 |
41.0 |
42.0 |
44.0 |
48.0 |
51.0 |
|
805 |
933 |
1118.6 |
1324.6 |
1446.9 |
1558 |
1638 |
1892 |
2140.8 |
2346 |
|
∴所求回归直线方程为.
例3.假设关于某设备的使用年限x和所支出的维修费用y(万元),有如下的统计资料:
使用年限x |
2 |
3 |
4 |
5 |
6 |
维修费用y |
2.2 |
3.8 |
5.5 |
6.5 |
7.0 |
若由资料知y对x呈现线性相关关系.
试求:(1)线性回归方程的回归系数a、b;
(2)估计使用年限为10年时,维修费用是多少?
分析:知道x与y呈线性相关关系,就无需进行相关性检验.否则,应首先进行相关性检验,如果本身两个变量不具备相关关系,或者说,它们之间相关关系不显著,即使求出回归方程也是毫无意义的,而且用其估计和预测的量也是不可信的.
因为y对x呈线性相关关系了,所以可以用一元线性相关的方法解决问题了.
(1)利用公式:来计算回归系数.
有时为了方便常制表对应出,以利于求和.
(2)获得回归线方程后,取,即得所求.
解:
(1)制表
|
1 |
2 |
3 |
4 |
5 |
合计 |
|
2 |
3 |
4 |
5 |
6 |
20 |
|
2.2 |
3.8 |
5.5 |
6.5 |
7.0 |
25 |
|
4.4 |
11.4 |
22.0 |
32.5 |
42.0 |
112.3 |
|
4 |
9 |
16 |
25 |
36 |
90 |
|
于是有;.
(2)回归直线方程是:,当(年)时,(万元),即估计使用10年时维修费用是12.38万元.
分析:回归分析,说明y与x它们之间是一元线性回归关系.回归方程中的回归系数b和a,刻画了这x与y两个量之间的变化趋势,对它们所反映出的信息进行分析,就是回归分析.
这是一个实际应用的回归分析问题,其实就是找出回归方程,通过回归直线方程来分析产品产量与单位成本的关系.
解:设回归直线方程为
所以代入公式:
故回归直线方程为:
由于回归线系数b为,由回归系数b的意义可知:产量每增加1000件,单位成本下降1.82元.
习题精选
练习一、填空题
相关关系与函数关系的区别是___________.
练习二、选择题
工人月工资(元)依劳动生产率(千元)变化的回归方程为 下列判断正确的是:( )
(1)劳动生产率为1000元时,工资为130元
(2)劳动生产率提高1000元则工资提高80元
(3)劳动生产率提高1000元则工资提高130元
(4)当月工资为210元时,劳动生产率为2000元
A.(1) B.(2) C.(3) D.(4)
练习三、解答题
1.假设学生在初一和初二数学成绩是线性相关的.若10个学生初一x和初二y数学分数如下:
|
74 |
71 |
72 |
68 |
76 |
73 |
67 |
70 |
65 |
74 |
|
76 |
75 |
71 |
70 |
76 |
79 |
65 |
77 |
62 |
72 |
试求初一和初二数学分数间的回归方程.
2.部分国家13岁学生数学测验平均分数为:
|
中国 |
韩国 |
瑞士 |
俄罗斯 |
法国 |
以色列 |
加拿大 |
英国 |
美国 |
约旦 |
授课天数 |
251 |
222 |
207 |
210 |
174 |
215 |
188 |
192 |
180 |
191 |
分数 |
80 |
73 |
71 |
70 |
64 |
63 |
62 |
61 |
55 |
46 |
试作出该数据的散点图并由图判断可否存在回归直线,若有则求出直线方程.
3.现随机抽取了我校10名学生在入学考试中的数学成绩x与入学后的第一次考试数学成绩y,数据如下:
学生号 |
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
10 |
x |
120 |
108 |
117 |
104 |
103 |
110 |
104 |
105 |
99 |
108 |
y |
84 |
64 |
84 |
68 |
69 |
68 |
69 |
46 |
57 |
71 |
请问:这10个学生的两次数学考试成绩是否具有显著性线性相关关系?
|