如果您无法下载资料,请参考说明:
1、部分资料下载需要金币,请确保您的账户上有足够的金币
2、已购买过的文档,再次下载不重复扣费
3、资料包下载后请先用软件解压,在使用对应软件打开
第四节抽样误差与假设检验一、抽样误差的概念为了与反映观察值离散程度的标准差相区别,统计学上把样本均数的标准差称为样本均数的标准误,简称为标准误(standarderror),其值越大就说明均数的抽样误差就越大,样本均数的离散程度就越高,也就是与总体均数的差异程度越大。抽样实验:假定从13岁女学生身高总体均μ=155.4cm,总体标准差σ=5.3cm的正态总体中进行随机抽样。样本均数的分布特点:1.各样本均数未必等于总体均数;2.样本均数之间存在差异;3.样本均数的分布很有规律,围绕着总体均数,中间多,两边少,左右基本对称,也服从正态分布。数理统计证明:从正态分布N(μ,σ2)中随机抽取例数为n的样本,其样本均数的分布仍服从正态分布;即使总体不呈正态分布,只要n很大,的分布也近似正态分布N(μ,)。均数标准误(理论值)的计算公式为:而在实际工作中只有用S估计σ,故标准误的估计值计算公式为例4-4-1用例4-2-1某地101例30~40岁骨科病人血清胆固醇值资料计算标准误均数标准误的用途:衡量样本均数的可靠性,其值越小则用其估计总体均数越可靠;结合样本均数和正态分布曲线下的面积分布规律,可用于估计总体均数的置信区间(后述);可用于均数的假设检验(后述)。(二)t分布统计量是t的分布就是t分布。t分布的特征:①以0为中心,左右对称呈单峰分布;②t分布是一簇曲线,分布参数为自由度υ。③t分布的形状与样本例数n有关,高峰比正态分布略低,两侧尾部翘得比正态分布略高。越大,曲线越近正态分布,当ν=∞时,t分布即为z分布。由于t分布是一簇曲线,为了便于应用,统计学家编制了表4-4-1t界值表。表4-4-1t界值表11与单侧概率相对应的t值用t(α,υ)表示,与双侧概率相对应的t值用t(α/2,υ)表示。二、总体均数的估计当σ已知或未知但n足够大(如n>100)用公式:例4-4-2由例4-2-2中5名17岁女中学生肺活量资料得=2.44L,S=0.33L,试估计该地17岁女中学生肺活量的95%的可信区间。本例n=5,=4,t0.05,4=2.776例4-4-3由例4-2-1101名30~49岁健康男子血清总胆固醇mmol·L-1,S=0.88mmol·L-1,求该地健康男子血清总胆固醇值均数的95%可信区间。置信区间的两个要素准确度:反映置信度的大小,即区间包含总体均数的概率大小。精度:反映区间的长度。在置信区间确定的情况下,增加样本例数,会减小tа,ν和,可减少区间长度,提高精度。意义:95%的参考值范围是指同质总体内包括95%个体值的估计范围。若总体为正态分布,常按计算。95%的可信区间是指按95%的置信度估计的总体参数的所在范围。若为大样本,按计算。计算上:置信区间用标准误,参考值范围用标准差。标准差与标准误的区别1)概念不同:标准差是描述样本中个体值间的变异程度的指标,标准差越小,表示变量值围绕均数的波动越小。标准误是描述样本均数间变异程度的指标,标准误越小,表示样本均数围绕总体均数的波动越小。联系;二者均为变异指标,如果把总体中各样本均数看成一个变量,则标准误可称为样本均数的标准差。当样本含量不变时,均数的标准误与标准差成正比。两者均可与均数结合运用,但描述的内容各不相同。三、总体率的估计(置信区间)(二)总体率的区间估计当样本例数n足够大,且样本率p和(1-p)都不太小时,即np和n(1-p)均大于5时,样本率p的抽样分布近似正态分布,可用正态近似法,按下式估计总体率的可信区间:(,),缩写为:例4-4-4从某地人群中随机抽取144人,检查乙型肝炎表面抗原携带状况,阳性率为9.20%,求该地人群的乙型肝炎表面抗原阳性率的95%可信区间。本例n=144,p=9.20%,可用近似正态法计算可信区间。先按式计算:正态近似法仅用于当样本例数n较大,且样本率p不接近0或1时。否则,近似程度不够,会出现估计的可信限小于0或大于1的不合理情况。四、假设检验的基本原理和基本步骤例4-4-5根据大量调查健康成年男子脉搏的均数为72次/分,某医生在山区随机调查了25名健康成年男子,其脉搏的均数为74.2次/分,标准差为6.5次/分,能否认为该山区成年男子的脉搏高于一般人群?本例已知总体均数μ0=72次/分,而来自于总体为μ的样本均数=74.2次/分,与μ0不等,其产生的可能原因有两种:①总体相同μ=μ0,差别由抽样误差造成;统计学上称为差异无显著性。②总体不同μ≠μ0,差异是本质上的差异,即二者来自不同总体。统计学上称为差异有显著性。要直接判断μ≠μ0是不可能的,但我们可以利用μ=μ0(即差别由抽样误差造成)的可能性大小即概率来判断,若概率小按小概率原理拒绝μ=μ