第六章 数量遗传

第二节      分析数量性状的基本统计方法

 

 

均值

 

一个表型分布的状况可以通过二个统计资料来表现,那就是均值(Mean)和方差(Variance)。均值又称为平均值(average)。在样本中均值给我们提供了有关表型分布中心的信息。均值可以用个体量度值的总和除以个体数n来求得。

也可以写成

XI表示样本中各个体的量度值。如果在样本中有的个体量度值相等,则可以合并为一组,其量度值以m­i表示,组内的个体数或占总体样本的频数以fi表示,则均值可表示为:

T(two)=x+y   n=20

=6.65

=7.05

=0.05(11)+0.15(12)+0.20(13)+0.35(14)+0.15(15)+0.10(16)=13.7

 

 二.方差

 

方差是表型分布的关键信息,它能反应分布范围也就是个体和均值的离散程度,均值相同的两个样本,它们的方差不一定相同。玉米穗长F1F2穗长的均值相近,但变异范围明显不同,方差就可反映这一特点,方差是变数X和平均数的偏差平均平方和。方差公式是:

以上是样本方差,若是总体方差分母为N。每个个体和均值的离差()都有了,为什么还要进行平方变成方差呢?因为我们要求的是各项离差的和,而各项离差有的是正值,有的是负值,相加后可能会互相抵消而产生误差,为了使各项都就成正值,所以进行平方。

  和()不是整数不便计算,所以将上式进一步改为下式:

   (1)

  =  n=                                      (2)

将(2)代入(1  =  3

=代入(3  S2==

以表  为例求T的方差可以用几种方法求得

=

=1.71

=0.05(11-13.7)2+0.15(12-13.7)2+0.20(13-13.7)2+0.35(14-13.7)2+0.15(15-13.7)2+0.10(16-13.7)2=1.71

==3788/20-187.69=1.71

 

三.标准差

 

方差虽能反映样本的变异范围但是经过平方后得出的值,因此其单位和个体量度出的单位意义已不同,为了使得变异范围的单位和个体量度范围相同,人们就将方差开方,方根以S表示。   S就称为标准差(standard deviationSD)或叫做标准误(standard error)。

6-5中的sx=0.9096,Sy=1.0722,St=1.308从这个数据我们可以知道对于总体来说95%的果蝇的右边性梳的齿数变异范围不超过+0.9096,左边性梳的齿数变异范围不超过+1.0722右边性梳范围变异较小,双腿的性梳总数为异范围不超过+1.308个。从(图6-3)中可以看出均值和标准差决定了表型分布的特点。


 

 

四.相关

 

在我们研究的各种性状中,常常有二个变量是有联系的或相关的,也就是说一个变量发生变化,另一个变量也发生变化。比如大部分动物头的大小和身体的大小是相关的。两个或几个统计变量同时变化的密切程度用相关系数(correlation coefficient)来表示,其域值范围为-1 γ 1,它同时也指出相关的方向。最小的相关系数-1表示绝对负相关;最大的相关系数+1表示正相关。假设我们有两个统计变量x(如身长)和y(如头的宽度)我们希望能计算xy之间的相关(correlation)我们先要获得xy的协方差(covariance)。协方差是量度两变数之间的互变关系,γ在xy方向中的离差的积数之和除此之除以自由度就称为xy的协方差COVxy

COVxy=

为了便于计算,上式可写成

COVxy=

相关系数γ等于xy的协方差除以二者标准差的乘积

γ=

现以虎螈的体长和头宽这两个统计量为例(表5-6),通过计算γ=0.91

6-6  虎螈体长和头宽的相关性

体长(mmxi

头宽(mmyi

xi yi

72.00

-7.92

62.67

17.00

-0.75

0.56

1224

62.00

-17.92

321.01

14.00

-3.75

14.06

868

86.00

6.08

37.01

20.00

2.25

5.06

1720

76.00

-3.92

15.34

14.00

-3.75

14.06

1064

64.00

-15.92

253.34

15.00

-2.75

7.56

960

82.00

2.08

4.34

20.00

2.25

5.06

1640

71.00

-8.92

79.51

15.00

-2.57

7.56

1065

96.00

16.08

258.67

21.00

3.25

10.56

2016

87.00

7.08

50.17

19.00

1.25

1.56

1653

103.00

23.08

532.84

23.00

5.25

27.56

23.69

86.00

6.08

37.01

18.00

0.25

0.06

1548

74.00

-5.92

35.01

17.00

-0.75

0.56

1258

=959.00

 

=1686.92

=213.00

 

=94.25

= 17385

协方差COVxy==

相关系数  γ= COVxy/SxSy=32.97/12.38×2.93=0.91

若相关系数为为正值时,表明当一个变量增加时另一变量也随这增加(图6-4),在向日葵中若种子的大小正相关于种子的多少。那么产生大种子的植株也会结较多的种子。图中的b,c,d,f都是正相关。相关系数为负数时表明当一个变量增加时,另一个变量也随之减少,如果种子的大小和数量是负相关的话,那么产生大种子的植物结的种子要比结小种子的植物来得少。图中的e就表示负相关。当相关性系数靠近-1+1时,相关性是强的。即一个变量的改变总随着另一变量的改变。如图中的f,γ=0.9表明相关性很强,相反当γ=0时(图a)表明两个变量之间没有什么相关性。

我们必须注意:(1)变量之间的相关性仅表示这两个变量有联系,但并不意味着有因果关系的存在;(2)相关性并不是表明两事件相同。仅意味着一个变量的改变和另一变量中的改变有关联。两个变量可能高度相关,但数值有很大的差别。例如当代大学时代的男子身高是和他们父亲的身高相关的,高个子的父亲产生了高个子的儿子,矮个子父亲生育了矮个子的儿子,这种相关性是由于影响人类身长的基因作用的结果。但现代的大部分男大学生都要高于他们的父亲,这可能是由于近年来较好的营养和健康状况增加了所有个体的身长。这样父亲和儿子在身长上显示了相关性,但他们的身长并不相同。

 

五.回归

 

相关系数告诉我们变量之间的联系是强是弱,并表明这种关系是正是负。但关于变量间的精确的关系我们凭相关系数确难以确定。我们常常想知道一个变量有多少变化是和另一个变量的变化有关联。比如前面我们所举的父子身高的例子中我们要问如果父亲是170cm高,儿子可能有多高呢?回答这个问题是要用另一种统计方法,回归(regressim)分析。

“回归”这个词是由F.Galton创立的。回归是指因变量对自变量的依存关系。相关的两个变量之间是没有从属关系的,而回归关系的两个变量是有从属关系的。比如父子的身长存在着回归的关系,高个子的父亲常生高个子的儿子,但儿子身长超过父亲的概率要小于低于父亲的概率;同样矮个子的父亲常生矮个子的儿子,但儿子身长比父亲更矮的概率要小于比父亲高的概率。也就是说不可能无限制的一代比一代高,或一代比一代矮。后代的高度有向平均高度回归的趋势;离开均值越远,所受到回归的压力也越大。“回归”这个词就由此而来。

两个可变量之间的关系可以用回归线(regaression line)来表示(图6-5)表示父亲和儿子身高的关系。横座标表示父亲的高度,纵座标表示儿子高度,每一点表示标本中父亲和儿子高度的交点。回归线是数学估计线,表示最适合的点。

回归的一般意义是表示一个因变量能随着另一个自变量的改变而变;通过回归计算可根据自变量的值以一定的置信程度估计相应的因变量的值。另一个重要的意义是若引入自变量,可以使因变量的偶然性内部变差缩小的话,那么我们说在这两种变量间存在着回归的关系。例如以来成年人的身高作为因变量,单独测量这个变量就会发现其本身变差很大,若将年龄作为自变量引入,再把身高按年龄的大小依次分组时,发现年龄组内的身高变差比不分组前的变差要小得多。因此由年龄的引入成功缩小了身高的变差,我就可以确定身高在年龄上存在回归。回归线是一条直线,所以我们可以用直线方程来表示。

y =a+bx

ay的截距,b是斜率,又称为回归系数。回归系数如何计算呢?我们首先考虑下列法则:把双变量的随机样本在直角坐标上作成散点图,必定存在这样一根直线,到每个点的y方向的距离的平方和为最小,也就是“最小二乘”法则。只要散点存在,那么这根直线也可以作出,且只有唯一的一条。这就是我们所求的回归线。回归系数b可以按下式求得b=

约去自由度  b=   为便于计算,可改写为

b=